Dificultades técnicas en la segmentación de palabras chinas
La ambigüedad de intersección es relativamente fácil de manejar en comparación con la ambigüedad combinada, que debe juzgarse en función de la oración completa. Por ejemplo, en la oración "Este pomo de la puerta está roto", "manija" es una palabra, pero en la oración "Por favor, retire la mano", "manija" no es una palabra en "El general nombró a un teniente general" "; En esta oración, "teniente general" es una palabra, pero en la oración "la producción se triplicará en tres años", "teniente general" ya no es una palabra. ¿Cómo reconoce una computadora estas palabras?
Si tanto la ambigüedad de intersección como la ambigüedad de combinación pueden resolverse mediante computadoras, entonces hay otro problema difícil en la ambigüedad, que es la verdadera ambigüedad. La verdadera ambigüedad es que cuando se les da una oración, la gente no sabe cuál se supone que es una palabra y cuál no. Por ejemplo, "la subasta de tenis de mesa terminó" se puede dividir en "la subasta de tenis de mesa terminó" o "la subasta de tenis de mesa terminó". Sin otras oraciones en contexto, me temo que nadie sabría si "subasta" es una palabra aquí. Las entidades nombradas (nombres de personas, lugares), las palabras nuevas y los términos profesionales se denominan palabras no registradas. Es decir, aquellas palabras que no están incluidas en el diccionario de segmentación de palabras, pero que sí pueden denominarse palabras. Los más típicos son los nombres personales, que son fáciles de entender para la gente. En la oración "Wang fue a Guangzhou", "Wang" es una palabra porque es el nombre de una persona, pero a la computadora le resulta difícil reconocerlo. Si "rey" se incluye como palabra en un diccionario, hay tantos nombres en el mundo, y cada momento aparecen nuevos nombres. Sería un proyecto enorme y antieconómico incluir estos nombres. Incluso si el trabajo pudiera completarse, todavía habría problemas. Por ejemplo, ¿se puede contar como una palabra el "rey" en la oración "Wang Jun tiene cabeza de tigre y cerebro de tigre"?
Además de los nombres personales, también hay nombres de organizaciones, nombres de lugares, nombres de productos, nombres de marcas, abreviaturas, elipses, etc. Estos son más difíciles de procesar y son solo palabras que la gente usa a menudo. , por lo que en el sistema de segmentación de palabras es muy importante que los motores de búsqueda reconozcan nuevas palabras. La precisión del reconocimiento de nuevas palabras se ha convertido en uno de los indicadores importantes para evaluar la calidad de los sistemas de segmentación de palabras.