Colección de citas famosas - Colección de máximas - ¿Qué es la segmentación de palabras chinas?

¿Qué es la segmentación de palabras chinas?

¿Chino? Como todos sabemos, el inglés se basa en palabras y las palabras están separadas por espacios, mientras que el chino se basa en palabras y todas las palabras de una oración se pueden conectar para describir un significado. Por ejemplo, la frase en inglés "Soy un estudiante" significa "Soy un estudiante" en chino. La computadora puede saber fácilmente que estudiante es una palabra a través de espacios, pero no es fácil entender que las dos palabras "aprender" y "生" juntas representan una palabra. Cortar secuencias de caracteres chinos en palabras significativas es la segmentación de palabras chinas, que algunas personas también llaman segmentación de palabras. Soy estudiante. El resultado del participio es: Soy estudiante.

Los algoritmos de segmentación de palabras chinos convencionales actuales son: 1. Método de segmentación de palabras basado en la coincidencia de cadenas. Este método también se denomina segmentación mecánica de palabras. Hace coincidir la cadena china que se va a analizar con entradas en un diccionario de máquina "suficientemente grande" de acuerdo con una estrategia determinada. Si se encuentra una cadena en el diccionario, la coincidencia es exitosa (se reconoce una palabra). Según la dirección de escaneo, el método de segmentación de palabras de coincidencia de cadenas se puede dividir en coincidencia directa y coincidencia inversa de acuerdo con la coincidencia de prioridad de diferentes longitudes, y se puede dividir en coincidencia máxima (más larga) y coincidencia mínima (más corta); según si coincide con la etiqueta de parte del discurso La combinación de procesos se puede dividir en métodos simples de segmentación de palabras y métodos integrales que combinan segmentación y anotación de palabras. Varios métodos de segmentación mecánica de palabras comúnmente utilizados son los siguientes:

1) Método de coincidencia máxima positiva (dirección de izquierda a derecha)

2) Método de coincidencia máxima inversa (de derecha a izquierda); );

3) Segmentación mínima (minimizar el número de palabras recortadas de cada frase).

Los métodos anteriores también se pueden combinar entre sí, por ejemplo, el método de coincidencia máxima directa y el método de coincidencia máxima inversa se pueden combinar para formar un método de coincidencia bidireccional. Debido a las características del vocabulario chino, rara vez se utilizan la coincidencia mínima directa y la coincidencia mínima inversa. En términos generales, la precisión de la segmentación de la concordancia inversa es ligeramente mayor que la de la concordancia directa y se encuentran menos ambigüedades. Los resultados estadísticos muestran que la tasa de error de usar solo la coincidencia máxima directa es 1/169, y la tasa de error de usar solo la coincidencia máxima inversa es 1/245. Sin embargo, esta precisión está lejos de satisfacer las necesidades reales. En los sistemas de segmentación de palabras reales, la segmentación mecánica de palabras se utiliza como método de segmentación inicial, y la precisión de la segmentación debe mejorarse aún más mediante el uso de otra información del lenguaje.

Un enfoque es mejorar el método de escaneo, llamado escaneo de características o segmentación de marcadores. Primero, identificar y segmentar algunas palabras con características obvias en la cadena a analizar. Usando estas palabras como puntos de interrupción, la cadena original se puede dividir en cadenas más pequeñas y luego segmentar mecánicamente, reduciendo así la tasa de error de coincidencia. Otro método es combinar la segmentación de palabras y el etiquetado de partes del discurso, utilizar información rica sobre las partes del discurso para ayudar en las decisiones de segmentación de palabras y, a su vez, verificar y ajustar los resultados de la segmentación de palabras durante el proceso de etiquetado, mejorando así en gran medida la precisión de segmentación de palabras.

Para el método de segmentación mecánica de palabras, se puede establecer un modelo general. Existen artículos académicos profesionales en esta área y no se discutirán en detalle aquí.

2. Segmentación de palabras basada en la comprensión Este método de segmentación de palabras logra el efecto de reconocimiento de palabras al permitir que la computadora simule la comprensión humana de las oraciones. La idea básica es realizar análisis sintáctico y semántico mientras se segmentan palabras y utilizar información sintáctica y semántica para abordar la ambigüedad. Suele constar de tres partes: subsistema de segmentación de palabras, subsistema de sintaxis y semántica y parte de control general. Bajo la coordinación de la parte de control general, el subsistema de segmentación de palabras puede obtener información sintáctica y semántica sobre palabras y oraciones para juzgar la ambigüedad de la segmentación de palabras, es decir, simula el proceso de comprensión de oraciones por parte de las personas. Este método de segmentación de palabras requiere una gran cantidad de información y conocimiento del idioma. Debido a la generalidad y complejidad del conocimiento del idioma chino, es difícil organizar la información diversa del idioma en un formato que las máquinas puedan leer directamente, por lo que el sistema de segmentación de palabras basado en la comprensión aún se encuentra en la etapa experimental.

3. Método de segmentación de palabras basado en estadísticas Desde un punto de vista formal, las palabras son combinaciones estables de palabras, por lo que en contexto, cuantas más veces aparezcan palabras adyacentes al mismo tiempo, más probabilidades hay de que aparezcan. formar una palabra. Por lo tanto, la frecuencia o probabilidad de palabras adyacentes puede reflejar mejor la credibilidad de la formación de palabras. Podemos contar la frecuencia de combinaciones de palabras adyacentes en el corpus y calcular su información de co-ocurrencia. Defina la información de coocurrencia de dos caracteres chinos y calcule la probabilidad de aparición * * * adyacente de dos caracteres chinos X e y. La información de coocurrencia refleja la cercanía de la combinación entre caracteres chinos.

Cuando la cercanía supera un cierto umbral, se puede considerar que este grupo de palabras puede formar una palabra. Este método solo necesita contar la frecuencia de los grupos de palabras en el corpus sin dividir el diccionario, por lo que también se denomina segmentación de palabras sin diccionario o método estadístico de recuperación de palabras. Sin embargo, este método también tiene ciertas limitaciones, como "este", "uno", "tú", "mi", "muchos", etc. A menudo extrae algunas palabras comunes de alta frecuencia en lugar de palabras, y las palabras comunes El reconocimiento es preciso, la tasa es baja y la sobrecarga de tiempo y espacio es grande. Todos los sistemas prácticos de segmentación de palabras estadísticas utilizan un diccionario de segmentación de palabras básico (diccionario de palabras comunes) para la segmentación de palabras que coinciden con cadenas y, al mismo tiempo, utilizan métodos estadísticos para identificar algunas palabras nuevas, es decir, combinan estadísticas de frecuencia de cadenas y coincidencias de cadenas, que no solo da rienda suelta a la segmentación de palabras coincidentes. Es rápido y eficiente, y utiliza segmentación de palabras sin diccionario combinada con contexto para identificar nuevas palabras y eliminar ambigüedades automáticamente.

上篇: ¿Qué longitud del tráfico? 下篇: ¿Qué es un "diccionario"? Realmente no sé cuál es este concepto ahora.