Colección de citas famosas - Mensajes de felicitación - ¿Cómo unir frases cortas chinas por similitud?

¿Cómo unir frases cortas chinas por similitud?

1. El VSM primitivo y al revés

Si busca la palabra clave "similitud de texto corto" en línea, los resultados se basarán básicamente en la solución VSM BOW (Bolsa de palabras). El proceso es el siguiente:

Segmentación de palabras—gt; Extraer palabras clave—gt; Calcular tf o if-idf, reemplazar el texto original en forma de vector—gt; transformado en cálculo de similitud vectorial

La idea es muy clara al principio y hay mucha información correspondiente en Internet, así que comencemos.

1. Elimine los signos de puntuación de todos los textos breves, utilice la segmentación de palabras jieba para separar las buenas palabras, elimine las palabras vacías y obtenga un buen texto dividido.

2. ciertas reglas, como cada dimensión del vector posterior;

3. Utilice los métodos nativos CountVectorizer, TfidfVectorizer, etc. en la biblioteca sklearn para obtener la matriz

4. vector correspondiente para cada texto breve, utilizando el método de agrupamiento K-Means para el aprendizaje no supervisado.

La idea general de clasificación de texto es básicamente la mencionada anteriormente, y los detalles específicos dependerán de la situación real. Sin embargo, la idea es hermosa, pero la realidad es cruel. Los textos con todas las buenas palabras extraen más palabras características, es decir, las dimensiones del vector son mayores y los vectores son escasos. Cuando se utilizan K-Means, habrá errores individuales. la cantidad de texto bajo el grupo es particularmente grande;