Colección de citas famosas - Colección de consignas - Definición e introducción de participios

Definición e introducción de participios

/n2004911134640735.asp ¿Qué es la segmentación de palabras chinas?

Como todos sabemos, el inglés se basa en palabras y las palabras están separadas por espacios, mientras que el chino se basa en palabras. las palabras de la oración se pueden combinar para describir un significado. Por ejemplo, la frase en inglés Soy estudiante sería: "Soy un estudiante" en chino. La computadora puede saber fácilmente que estudiante es una palabra a través de espacios, pero no puede entender fácilmente que las palabras "aprender" y "生" combinadas representan una palabra. Dividir la secuencia de caracteres chinos en palabras significativas es la segmentación de palabras chinas, que algunas personas también llaman segmentación de palabras. Soy estudiante. El resultado del participio es: Soy estudiante. Tecnología de segmentación de palabras chinas

La tecnología de segmentación de palabras chinas pertenece a la categoría de tecnología de procesamiento del lenguaje natural. Para una oración, las personas pueden usar su propio conocimiento para comprender qué palabras son palabras y cuáles no, pero cómo pueden hacerlo. ¿La computadora también lo entiende? El proceso de procesamiento es el algoritmo de segmentación de palabras.

Los algoritmos de segmentación de palabras existentes se pueden dividir en tres categorías principales: métodos de segmentación de palabras basados ​​en la coincidencia de cadenas, métodos de segmentación de palabras basados ​​en la comprensión y métodos de segmentación de palabras basados ​​en estadísticas.

1. Método de segmentación de palabras basado en la coincidencia de cadenas

Este método también se denomina método de segmentación mecánica de palabras. Sigue una determinada estrategia para combinar la cadena de caracteres chinos que se va a analizar con una. "suficientemente grande" "Las entradas en el diccionario de la máquina coinciden. Si se encuentra una determinada cadena en el diccionario, la coincidencia es exitosa (se reconoce una palabra). Según las diferentes direcciones de escaneo, el método de segmentación de palabras de coincidencia de cadenas se puede dividir en coincidencia directa y coincidencia inversa de acuerdo con la coincidencia de prioridad de diferentes longitudes, y se puede dividir en coincidencia máxima (más larga) y coincidencia mínima (más corta); ya sea que esté relacionado con el proceso de etiquetado de parte del discurso combinado, se puede dividir en un método simple de segmentación de palabras y un método integrado que combina segmentación y anotación de palabras. Varios métodos de segmentación mecánica de palabras comúnmente utilizados son los siguientes:

1) Método de coincidencia máxima directa (de izquierda a derecha)

2) Método de coincidencia máxima inversa (de derecha a izquierda); dirección);

3) Segmentación mínima (minimizar el número de palabras recortadas en cada frase).

Los métodos anteriores también se pueden combinar entre sí, por ejemplo, el método de coincidencia máxima directa y el método de coincidencia máxima inversa se pueden combinar para formar un método de coincidencia bidireccional. Debido a las características de la formación de palabras chinas de un solo carácter, la concordancia mínima directa y la concordancia mínima inversa generalmente rara vez se utilizan. En términos generales, la precisión de la segmentación de la concordancia inversa es ligeramente mayor que la de la concordancia directa y se encuentran menos ambigüedades. Los resultados estadísticos muestran que la tasa de error de simplemente usar la coincidencia máxima directa es 1/169, y la tasa de error de simplemente usar la coincidencia máxima inversa es 1/245. Sin embargo, esta precisión está lejos de satisfacer las necesidades reales. Todos los sistemas de segmentación de palabras realmente utilizados utilizan la segmentación mecánica de palabras como método de segmentación preliminar, y es necesario mejorar aún más la precisión de la segmentación mediante el uso de otra información lingüística.

Un método consiste en mejorar el método de escaneo, que se denomina escaneo de características o segmentación de marcas. Prioriza la identificación y segmentación de algunas palabras con características obvias en la cadena que se va a analizar y utiliza estas palabras como puntos de interrupción. la cadena original se puede dividir en cadenas más pequeñas y luego se puede realizar la segmentación mecánica de palabras, reduciendo así la tasa de error de coincidencia. Otro método es combinar la segmentación de palabras y el etiquetado de partes del discurso, utilizar información rica sobre las partes del discurso para ayudar en las decisiones de segmentación de palabras y, a su vez, verificar y ajustar los resultados de la segmentación de palabras durante el proceso de etiquetado, mejorando así en gran medida la precisión de segmentación.

Para el método de segmentación mecánica de palabras, se puede establecer un modelo general. Existen artículos académicos profesionales sobre este aspecto, que no se discutirán en detalle aquí.

2. Método de segmentación de palabras basado en la comprensión

Este método de segmentación de palabras logra el efecto de reconocimiento de palabras al permitir que la computadora simule la comprensión humana de las oraciones. La idea básica es realizar un análisis sintáctico y semántico mientras se segmentan palabras y utilizar información sintáctica y semántica para abordar la ambigüedad. Por lo general, consta de tres partes: subsistema de segmentación de palabras, subsistema de sintaxis y semántica y parte de control general. Bajo la coordinación de la parte de control general, el subsistema de segmentación de palabras puede obtener información sintáctica y semántica sobre palabras, oraciones, etc. para juzgar la ambigüedad de la segmentación de palabras, es decir, simula el proceso de comprensión humana de las oraciones. Este método de segmentación de palabras requiere el uso de una gran cantidad de información y conocimiento del idioma.

Debido a la generalidad y complejidad del conocimiento del idioma chino, es difícil organizar la información diversa del idioma en un formato que las máquinas puedan leer directamente. Por lo tanto, el sistema de segmentación de palabras basado en la comprensión aún se encuentra en la etapa experimental.

3. Método de segmentación de palabras basado en estadísticas

Desde un punto de vista formal, una palabra es una combinación estable de palabras, por lo que en el contexto, cuantas más veces aparecen palabras adyacentes en Al mismo tiempo, cuanto más, más probable es que se forme una palabra. Por lo tanto, la frecuencia o probabilidad de palabras adyacentes puede reflejar mejor la credibilidad de la palabra. Se puede contar la frecuencia de combinaciones de palabras adyacentes en el corpus y se puede calcular la información de su aparición mutua. Defina la información de aparición mutua de dos caracteres y calcule la probabilidad de aparición adyacente de dos caracteres chinos X e Y. La información de ocurrencia mutua refleja la cercanía de la relación de combinación entre caracteres chinos. Cuando la cercanía supera un cierto umbral, se puede considerar que este grupo de palabras puede formar una palabra. Este método solo necesita contar la frecuencia de los grupos de palabras en el corpus y no necesita segmentar el diccionario, por lo que también se denomina método de segmentación de palabras sin diccionario o método de extracción estadística de palabras. Sin embargo, este método también tiene ciertas limitaciones. A menudo extraerá algunos grupos de palabras de uso frecuente que aparecen con frecuencia pero que no son palabras, como "este", "uno", "algunos", "mi", "muchos", etc. ., y la precisión del reconocimiento de palabras comunes es pobre y la sobrecarga de tiempo y espacio es grande. Los sistemas prácticos de segmentación de palabras estadísticas deben utilizar un diccionario de segmentación de palabras básico (diccionario de palabras comunes) para la coincidencia de cadenas y la segmentación de palabras, y al mismo tiempo utilizar métodos estadísticos para identificar algunas palabras nuevas, es decir, combinar estadísticas de frecuencia de cadenas y coincidencia de cadenas, que no solo desempeña el papel de segmentación de palabras coincidentes, sino que también utiliza métodos estadísticos para identificar algunas palabras nuevas. Tiene las características de segmentación rápida y alta eficiencia, y también aprovecha la segmentación de palabras sin diccionario combinada con contexto para identificar palabras nuevas y. eliminar automáticamente las ambigüedades.

Actualmente no hay ninguna conclusión sobre qué algoritmo de segmentación de palabras es más preciso. Para cualquier sistema de segmentación de palabras maduro, es imposible confiar únicamente en un determinado algoritmo para lograrlo y requiere una combinación de diferentes algoritmos. El autor entiende que el algoritmo de segmentación de palabras de Massive Technology utiliza el "método de segmentación de palabras compuestas". El llamado compuesto es equivalente al concepto de compuesto en la medicina tradicional china, es decir, se combinan diferentes medicamentos para tratar enfermedades. El reconocimiento de palabras chinas requiere muchos algoritmos para abordar diferentes problemas.