Colección de citas famosas - Mensajes de felicitación - Dificultades técnicas en la segmentación de palabras chinas

Dificultades técnicas en la segmentación de palabras chinas

Con un algoritmo de segmentación de palabras maduro, ¿podemos resolver fácilmente el problema de la segmentación de palabras chinas? Esto no podría estar más lejos de la verdad. El chino es un idioma muy complejo y es aún más difícil de entender para las computadoras. En el proceso de segmentación de palabras chinas, hay dos problemas importantes que aún no se han superado por completo. La ambigüedad significa que una misma oración puede segmentarse de dos o más formas. Hay dos tipos principales de ambigüedad: ambigüedad de intersección y ambigüedad combinada. Por ejemplo, superficial, debido a que "cara" y "cara" son palabras, esta frase se puede dividir en "cara" y "cara". Esta ambigüedad se llama ambigüedad cruzada. Este tipo de ambigüedad en la intersección es muy común. El ejemplo del "kimono" mencionado anteriormente es en realidad un error causado por la ambigüedad en la intersección. "Maquillaje y ropa" se puede dividir en "maquillaje y ropa" o "maquillaje y ropa". Como nadie tiene los conocimientos necesarios para comprenderlo, es difícil para una computadora saber cuál es la solución correcta.

La ambigüedad de intersección es relativamente fácil de manejar en comparación con la ambigüedad combinada, que debe juzgarse en función de la oración completa. Por ejemplo, en la oración "Este pomo de la puerta está roto", "manija" es una palabra, pero en la oración "Por favor, retire la mano", "manija" no es una palabra en "El general nombró a un teniente general" "; En esta oración, "teniente general" es una palabra, pero en la oración "la producción se triplicará en tres años", "teniente general" ya no es una palabra. ¿Cómo reconoce una computadora estas palabras?

Si tanto la ambigüedad de intersección como la ambigüedad de combinación pueden resolverse mediante computadoras, entonces hay otro problema difícil en la ambigüedad, que es la verdadera ambigüedad. La verdadera ambigüedad es que cuando se les da una oración, la gente no sabe cuál se supone que es una palabra y cuál no. Por ejemplo, "la subasta de tenis de mesa terminó" se puede dividir en "la subasta de tenis de mesa terminó" o "la subasta de tenis de mesa terminó". Sin otras oraciones en contexto, me temo que nadie sabría si "subasta" es una palabra aquí. Las entidades nombradas (nombres de personas, lugares), las palabras nuevas y los términos profesionales se denominan palabras no registradas. Es decir, aquellas palabras que no están incluidas en el diccionario de segmentación de palabras, pero que sí pueden denominarse palabras. Los más típicos son los nombres personales, que son fáciles de entender para la gente. En la oración "Wang fue a Guangzhou", "Wang" es una palabra porque es el nombre de una persona, pero a la computadora le resulta difícil reconocerlo. Si "rey" se incluye como palabra en un diccionario, hay tantos nombres en el mundo, y cada momento aparecen nuevos nombres. Sería un proyecto enorme y antieconómico incluir estos nombres. Incluso si el trabajo pudiera completarse, todavía habría problemas. Por ejemplo, ¿se puede contar como una palabra el "rey" en la oración "Wang Jun tiene cabeza de tigre y cerebro de tigre"?

Además de los nombres personales, también hay nombres de organizaciones, nombres de lugares, nombres de productos, nombres de marcas, abreviaturas, elipses, etc. Estos son más difíciles de procesar y son solo palabras que la gente usa a menudo. , por lo que en el sistema de segmentación de palabras es muy importante que los motores de búsqueda reconozcan nuevas palabras. La precisión del reconocimiento de nuevas palabras se ha convertido en uno de los indicadores importantes para evaluar la calidad de los sistemas de segmentación de palabras.