Información básica sobre la segmentación de palabras chinas
1. En comparación con el latín representado por el inglés, el inglés utiliza espacios como separadores naturales, mientras que los chinos heredan la tradición antigua. Chino, no hay separadores entre palabras. En el chino antiguo, a excepción de las conjunciones y los nombres de personas y lugares, los caracteres generalmente son caracteres chinos únicos y no es necesario escribirlos con palabras. En el chino moderno, suele haber dos o más palabras, y una palabra ya no equivale a una sola palabra.
2. En chino, la frontera entre "palabra" y "frase" es difusa.
Aunque la unidad básica de expresión en el chino moderno es la "palabra", y la mayoría de ellas tienen dos o varios caracteres, debido a los diferentes niveles de comprensión de las personas, es difícil distinguir los límites entre palabras y frases.
Por ejemplo, diferentes personas tendrán diferentes estándares, como "castigo por escupir", si "escupir" es una palabra o una frase, el mismo "mar" y "bodega", etc., espera. Incluso la misma persona puede emitir juicios diferentes. Si realmente es necesario escribir el chino con palabras, inevitablemente causará confusión y será muy difícil.
De hecho, la segmentación de palabras chinas no se limita a las aplicaciones chinas, sino que también se puede aplicar al procesamiento en inglés, como el reconocimiento de escritura a mano, donde los espacios entre palabras no son muy claros. La segmentación de palabras chinas puede ayudar a distinguir los límites de las palabras en inglés. La segmentación de palabras chinas es la base de la minería de textos. Para una entrada de chino, la segmentación exitosa de palabras chinas puede lograr el efecto de que la computadora identifique automáticamente el significado de la oración.
La tecnología de segmentación de palabras chinas pertenece a la categoría de tecnología de procesamiento del lenguaje natural. En el caso de una oración, las personas pueden entender qué palabras son palabras y cuáles no a través de su propio conocimiento, pero ¿cómo lo entiende una computadora? El proceso de procesamiento es un algoritmo de segmentación de palabras. Este método, también conocido como segmentación mecánica de palabras, relaciona la cadena china que se va a analizar con entradas en un diccionario automático "suficientemente grande" de acuerdo con una estrategia determinada. Si se encuentra una determinada cadena en el diccionario, la coincidencia se realiza correctamente (se reconoce una palabra). Según la dirección de escaneo, el método de segmentación de palabras de coincidencia de cadenas se puede dividir en coincidencia directa y coincidencia inversa de acuerdo con la coincidencia de prioridad de diferentes longitudes, y se puede dividir en coincidencia máxima (más larga) y coincidencia mínima (más corta); varios métodos mecánicos de segmentación de palabras comúnmente utilizados son los siguientes:
1) Método de coincidencia máxima positiva (dirección de izquierda a derecha
2) Método de coincidencia máxima inversa (de derecha a derecha); left);
3) Segmentación mínima (minimizar el número de palabras recortadas de cada oración);
4) Método de coincidencia máxima bidireccional (escanear dos veces de izquierda a derecha y de derecha). a la izquierda)
Los métodos anteriores también se pueden combinar entre sí. Por ejemplo, el método de coincidencia máxima directa y el método de coincidencia máxima inversa se pueden combinar para formar un método de coincidencia bidireccional. Debido a las características del vocabulario chino, rara vez se utilizan la coincidencia mínima directa y la coincidencia mínima inversa. En términos generales, la precisión de la segmentación de la concordancia inversa es ligeramente mayor que la de la concordancia directa y se encuentran menos ambigüedades. Los resultados estadísticos muestran que la tasa de error de usar solo la coincidencia máxima directa es 1/169, y la tasa de error de usar solo la coincidencia máxima inversa es 1/245. Sin embargo, esta precisión está lejos de satisfacer las necesidades reales. En los sistemas de segmentación de palabras reales, la segmentación mecánica de palabras se utiliza como método de segmentación inicial, y la precisión de la segmentación debe mejorarse aún más mediante el uso de otra información del lenguaje.
Un enfoque es mejorar el método de escaneo, llamado escaneo de características o segmentación de marcadores. Primero, identificar y segmentar algunas palabras con características obvias en la cadena a analizar. Usando estas palabras como puntos de interrupción, la cadena original se puede dividir en cadenas más pequeñas y luego segmentar mecánicamente, reduciendo así la tasa de error de coincidencia. Otro método es combinar la segmentación de palabras y el etiquetado de partes del discurso, utilizar información rica sobre las partes del discurso para ayudar en las decisiones de segmentación de palabras y, a su vez, verificar y ajustar los resultados de la segmentación de palabras durante el proceso de etiquetado, mejorando así en gran medida la precisión de segmentación de palabras.
Para el método de segmentación mecánica de palabras, se puede establecer un modelo general. Existen artículos académicos profesionales en esta área y no se discutirán en detalle aquí. Desde un punto de vista formal, una palabra es una combinación estable de palabras, por lo que en contexto, cuantas más veces aparezcan palabras adyacentes al mismo tiempo, es más probable que formen una palabra. Por lo tanto, la frecuencia o probabilidad de palabras adyacentes puede reflejar mejor la credibilidad de la formación de palabras. Podemos contar la frecuencia de combinaciones de palabras adyacentes en el corpus y calcular su información de co-ocurrencia.
Defina la información de coocurrencia de dos caracteres chinos y calcule la probabilidad de aparición * * * adyacente de dos caracteres chinos X e y. La información de coocurrencia refleja la cercanía de la combinación entre caracteres chinos. Cuando la cercanía supera un cierto umbral, se puede considerar que este grupo de palabras puede formar una palabra. Este método solo necesita contar la frecuencia de los grupos de palabras en el corpus sin dividir el diccionario, por lo que también se denomina segmentación de palabras sin diccionario o método estadístico de recuperación de palabras. Sin embargo, este método también tiene ciertas limitaciones, como "este", "uno", "tú", "mi", "muchos", etc. A menudo extrae algunas palabras comunes de alta frecuencia en lugar de palabras, y las palabras comunes El reconocimiento es preciso, la tasa es baja y la sobrecarga de tiempo y espacio es grande. Todos los sistemas prácticos de segmentación de palabras estadísticas utilizan un diccionario de segmentación de palabras básico (diccionario de palabras comunes) para la segmentación de palabras que coinciden con cadenas y, al mismo tiempo, utilizan métodos estadísticos para identificar algunas palabras nuevas, es decir, combinan estadísticas de frecuencia de cadenas y coincidencias de cadenas, que no solo da rienda suelta a la segmentación de palabras coincidentes. Es rápido y eficiente, y utiliza segmentación de palabras sin diccionario combinada con contexto para identificar nuevas palabras y eliminar ambigüedades automáticamente.
El otro se basa en el aprendizaje automático estadístico. Primero, se proporciona una gran cantidad de texto segmentado y las reglas de segmentación de palabras se aprenden a través de un modelo estadístico de aprendizaje automático (llamado entrenamiento) para lograr la segmentación de texto desconocido. Como todos sabemos, cada palabra en chino tiene diferentes capacidades independientes para formar palabras. Además, algunas palabras suelen aparecer como prefijos y algunas palabras suelen aparecer como sufijos ("zhu", "行"). Al combinar la información de si dos palabras son palabras temporales, obtenemos mucho conocimiento relacionado con la segmentación de palabras. Este método consiste en hacer un uso completo de las reglas de formación de palabras chinas para segmentar palabras. La mayor desventaja de este método es que requiere una gran cantidad de palabras preclasificadas como soporte, y la sobrecarga de tiempo y espacio durante el proceso de capacitación es extremadamente alta.
Aún no hay ninguna conclusión sobre qué algoritmo de segmentación de palabras es más preciso. Para cualquier sistema de segmentación de palabras maduro, es imposible confiar en un solo algoritmo y es necesario integrar diferentes algoritmos. Por ejemplo, el algoritmo de segmentación de palabras de Massive Technology utiliza el "método de segmentación de palabras compuestas". El llamado participio compuesto se refiere al uso integral de métodos mecánicos y métodos de conocimiento, al igual que la integración de la medicina china y occidental. Para un sistema de segmentación de palabras chino maduro, se necesitan varios algoritmos para manejar el problema de manera integral.