Colección de citas famosas - Colección de firmas - Cómo medir la similitud semántica entre dos palabras

Cómo medir la similitud semántica entre dos palabras

Cómo medir la similitud semántica de oraciones, es fácil pensar en el modelo de espacio vectorial (VSM) y el método de edición de distancia, como A: "Mi padre es Li Gang" y B: "Mi hijo es Li Gang". usando el método VSM A (yo, papá, sí, Li Gang) B (yo, hijo, sí, Li Gang) calcula el coseno del ángulo entre dos vectores, por lo que no entraré en detalles sobre la distancia de recorte; . Reemplace "padre" e "hijo" respectivamente, d (a, b) = reemplace _ costo;

Estos son dos métodos relativamente simples y pertenecen a la línea base entre las líneas base. Mire dos ejemplos y lo sabrá. A: "¿Cómo construir un edificio?" B: "¿Cómo jugar al golf?" C: "¿Cómo construir una casa?" similar a AC, porque B y C tienen el mismo carácter "Cómo"; la distancia de edición es la misma;

No es difícil resolver este problema, siempre que todas las oraciones se expandan mediante un sinónimo. diccionario, "cómo", "cómo", "edificio", "casa" "son todos sinónimos o sinónimos, y luego usar vsm o editar distancia puede resolver este problema. Este método resuelve hasta cierto punto el problema de la baja tasa de recuperación, pero inevitablemente introducirá ruido después de la expansión, especialmente cuando la oración original contiene polisemia. Por ejemplo: "salsa de soja" y "suéter". Algunas palabras individuales en caracteres chinos expresan bastantes significados. Este tipo de caracteres chinos tiene una buena relación semántica en "HowNet" del Sr. Dong Zhendong. La similitud de la granularidad de las palabras se puede medir a través de la estructura de árbol de palabras con sememas en HowNet.

Esta pregunta parece estar bien respondida aquí, pero no lo suficiente en la práctica. VSM trata las palabras de la oración como características independientes e ignora el impacto del orden y la posición de la oración en la semántica de la oración. La distancia de edición considera la relación de orden de las palabras en una oración, pero esta relación es reemplazo mecánico, movimiento, eliminación y adición. De hecho, la información expresada por cada palabra es diferente. La misma palabra contiene información diferente o información semántica en diferentes combinaciones de palabras. ¿Qué pasa con el análisis sintáctico, calculando la similitud de árboles sintácticos? Este es más confiable que los dos primeros métodos porque el árbol de sintaxis describe muy bien la posición de la palabra en la oración. El efecto real debe confirmarse mediante experimentos.

Por cierto, existe otro método, el modelo de traducción, que es un trabajo pionero de IBM en el campo de la traducción automática. Para obtener resultados de traducción ideales, se requiere un gran corpus de capacitación. Por supuesto, se incluyen los resultados de la alineación de la palabra media. Si podemos utilizar recursos web para crear un corpus de alta calidad, alinear palabras en pares de oraciones similares mediante iteración EM y generar similitudes de oraciones a partir de la alineación de palabras, esto se puede lograr. . ¡Es una buena idea pensar en ello!