Colección de citas famosas - Mensajes de felicitación - ¿Qué es la segmentación de palabras chinas?

¿Qué es la segmentación de palabras chinas?

Principales métodos de segmentación de palabras chinas

Los algoritmos de segmentación de palabras existentes se pueden dividir en tres categorías: segmentación de palabras basada en la coincidencia de cadenas, segmentación de palabras basada en la comprensión y segmentación de palabras basada en estadísticas.

1. Método de segmentación de palabras basado en la coincidencia de cadenas.

Este método también se denomina segmentación mecánica de palabras. La cadena china que se va a analizar se compara con las palabras en un diccionario de máquina lo suficientemente grande. a una determinada estrategia. Si se encuentra una determinada cadena en el diccionario, la coincidencia se realiza correctamente (se reconoce una palabra). Según la dirección de escaneo, el método de segmentación de palabras de coincidencia de cadenas se puede dividir en coincidencia directa y coincidencia inversa de acuerdo con la coincidencia de prioridad de diferentes longitudes, y se puede dividir en coincidencia máxima (más larga) y coincidencia mínima (más corta); según si coincide con la etiqueta de parte del discurso La combinación de procesos se puede dividir en métodos simples de segmentación de palabras y métodos integrales que combinan segmentación y anotación de palabras. Varios métodos de segmentación mecánica de palabras comúnmente utilizados son los siguientes:

1) Método de coincidencia máxima positiva (dirección de izquierda a derecha)

2) Método de coincidencia máxima inversa (de derecha a izquierda); );

3) Segmentación mínima (minimizar el número de palabras recortadas de cada frase).

Los métodos anteriores también se pueden combinar entre sí, por ejemplo, el método de coincidencia máxima directa y el método de coincidencia máxima inversa se pueden combinar para formar un método de coincidencia bidireccional. Debido a las características del vocabulario chino, rara vez se utilizan la coincidencia mínima directa y la coincidencia mínima inversa. En términos generales, la precisión de la segmentación de la concordancia inversa es ligeramente mayor que la de la concordancia directa y se encuentran menos ambigüedades. Los resultados estadísticos muestran que la tasa de error de usar solo la coincidencia máxima directa es 1/169, y la tasa de error de usar solo la coincidencia máxima inversa es 1/245. Sin embargo, esta precisión está lejos de satisfacer las necesidades reales. En los sistemas de segmentación de palabras reales, la segmentación mecánica de palabras se utiliza como método de segmentación inicial, y la precisión de la segmentación debe mejorarse aún más mediante el uso de otra información del lenguaje.

Un enfoque es mejorar el método de escaneo, llamado escaneo de características o segmentación de marcadores. Primero, identificar y segmentar algunas palabras con características obvias en la cadena a analizar. Usando estas palabras como puntos de interrupción, la cadena original se puede dividir en cadenas más pequeñas y luego segmentar mecánicamente, reduciendo así la tasa de error de coincidencia. Otro método es combinar la segmentación de palabras y el etiquetado de partes del discurso, utilizar información rica sobre las partes del discurso para ayudar en las decisiones de segmentación de palabras y, a su vez, verificar y ajustar los resultados de la segmentación de palabras durante el proceso de etiquetado, mejorando así en gran medida la precisión de segmentación de palabras.

Para el método de segmentación mecánica de palabras, se puede establecer un modelo general. Existen artículos académicos profesionales en esta área y no se discutirán en detalle aquí.

2. Método de segmentación de palabras basado en la comprensión.

Este método de segmentación de palabras permite a la computadora simular la comprensión humana de las oraciones para lograr el efecto de reconocimiento de palabras. La idea básica es realizar análisis sintáctico y semántico mientras se segmentan palabras y utilizar información sintáctica y semántica para abordar la ambigüedad. Suele constar de tres partes: subsistema de segmentación de palabras, subsistema de sintaxis y semántica y parte de control general. Bajo la coordinación de la parte de control general, el subsistema de segmentación de palabras puede obtener información sintáctica y semántica sobre palabras y oraciones para juzgar la ambigüedad de la segmentación de palabras, es decir, simula el proceso de comprensión de oraciones por parte de las personas. Este método de segmentación de palabras requiere una gran cantidad de información y conocimiento del idioma. Debido a la generalidad y complejidad del conocimiento del idioma chino, es difícil organizar la información diversa del idioma en un formato que las máquinas puedan leer directamente, por lo que el sistema de segmentación de palabras basado en la comprensión aún se encuentra en la etapa experimental.

3. Método de segmentación de palabras basado en estadísticas.

Desde un punto de vista formal, una palabra es una combinación estable de palabras, por lo que en contexto, cuantas más veces aparezcan palabras adyacentes al mismo tiempo, más probabilidades hay de que formen una palabra. Por lo tanto, la frecuencia o probabilidad de palabras adyacentes puede reflejar mejor la credibilidad de la formación de palabras. Podemos contar la frecuencia de combinaciones de palabras adyacentes en el corpus y calcular su información de co-ocurrencia. Defina la información de coocurrencia de dos caracteres chinos y calcule la probabilidad de aparición * * * adyacente de dos caracteres chinos X e y. La información de coocurrencia refleja la cercanía de la combinación entre caracteres chinos. Cuando la cercanía supera un cierto umbral, se puede considerar que este grupo de palabras puede formar una palabra. Este método solo necesita contar la frecuencia de los grupos de palabras en el corpus sin dividir el diccionario, por lo que también se denomina segmentación de palabras sin diccionario o método estadístico de recuperación de palabras. Sin embargo, este enfoque también tiene algunas limitaciones.

A menudo extrae algunas frases comunes de alta frecuencia que no son palabras, como ésta, uno, algunos, mío, muchos, etc. Además, la precisión del reconocimiento de palabras comunes es deficiente y la sobrecarga de tiempo y espacio es grande. Todos los sistemas prácticos de segmentación de palabras estadísticas utilizan un diccionario de segmentación de palabras básico (diccionario de palabras comunes) para la segmentación de palabras que coinciden con cadenas y, al mismo tiempo, utilizan métodos estadísticos para identificar algunas palabras nuevas, es decir, combinan estadísticas de frecuencia de cadenas y coincidencias de cadenas, que no solo da rienda suelta a la segmentación de palabras coincidentes. Es rápido y eficiente, y utiliza segmentación de palabras sin diccionario combinada con contexto para identificar nuevas palabras y eliminar ambigüedades automáticamente.

Aún no hay ninguna conclusión sobre qué algoritmo de segmentación de palabras es más preciso. Para cualquier sistema de segmentación de palabras maduro, es imposible confiar en un solo algoritmo y es necesario integrar diferentes algoritmos. El autor aprendió que el algoritmo de segmentación de palabras de Massive Technology utiliza segmentación de palabras compuestas. El llamado participio compuesto equivale a utilizar el concepto de compuesto en la medicina tradicional china, que consiste en combinar diferentes materiales medicinales para tratar enfermedades. De manera similar, para el reconocimiento de caracteres chinos, se necesitan múltiples algoritmos para abordar diferentes problemas.

Problemas en la segmentación de palabras

Con un algoritmo de segmentación de palabras maduro, ¿podemos resolver fácilmente el problema de la segmentación de palabras chinas? Esto no podría estar más lejos de la verdad. El chino es un idioma muy complejo y es aún más difícil de entender para las computadoras. En el proceso de segmentación de palabras chinas, hay dos problemas importantes que aún no se han superado por completo.

1. Identificación de ambigüedad

La ambigüedad se refiere a una misma oración, que puede tener dos o más métodos de segmentación. Por ejemplo, superficial, debido a que superficie y superficie son palabras, entonces esta frase se puede dividir en superficial y superficie. Esto se llama ambigüedad cruzada. Este tipo de ambigüedad cruzada es muy común. El ejemplo del kimono mencionado anteriormente es en realidad un error causado por ambigüedad cruzada. El maquillaje y vestuario se pueden clasificar en maquillaje y vestuario o maquillaje y vestuario. Como nadie tiene los conocimientos necesarios para comprenderlo, es difícil para una computadora saber cuál es la solución correcta.

Si las computadoras pueden resolver la ambigüedad cruzada y la ambigüedad combinada, entonces hay otro problema difícil en la ambigüedad, que es la verdadera ambigüedad. La verdadera ambigüedad es que cuando se les da una oración, la gente no sabe cuál se supone que es una palabra y cuál no. Por ejemplo, el final de la subasta de tenis de mesa se puede dividir en dos categorías: el final de la subasta de tenis de mesa y el final de la subasta de tenis de mesa.

2. Identificación de palabras nuevas

Las palabras nuevas y los términos profesionales se denominan palabras no registradas. Es decir, aquellas palabras que no están incluidas en el diccionario, pero que sí pueden denominarse palabras. El más típico es el nombre de una persona. La gente pudo entender fácilmente las palabras de Wang y fue a Guangzhou. Wang es una palabra porque es el nombre de una persona, pero a las computadoras les resulta difícil reconocerlo. Si rey se incluye como palabra en el diccionario, hay muchísimos nombres en todo el mundo y hay nombres nuevos todo el tiempo. Incluir estos nombres fue una tarea enorme. Incluso si el trabajo pudiera completarse, todavía habría problemas. Por ejemplo, ¿la frase de Wang Can "Wang Jun tiene cabeza de tigre y cerebro de tigre" todavía cuenta como palabra?

Además de los nombres personales, también hay nombres de organizaciones, nombres de lugares, nombres de productos, nombres de marcas, abreviaturas, elipses, etc. Estos son más difíciles de tratar y son solo palabras que la gente suele usar. uso, por lo que los motores de búsqueda Es muy importante identificar nuevas palabras en los sistemas de segmentación de palabras. En la actualidad, la precisión del reconocimiento de nuevas palabras se ha convertido en uno de los indicadores importantes para evaluar un sistema de segmentación de palabras.

Aplicación de la segmentación de palabras chinas

En la actualidad, en la tecnología de procesamiento del lenguaje natural, la tecnología de procesamiento china está muy por detrás de la tecnología de procesamiento occidental. Muchos métodos de procesamiento occidentales no se pueden utilizar directamente porque los chinos deben tenerlos. Segmentación de palabras para chino. La segmentación de palabras chinas es la base para otro procesamiento de información china, y los motores de búsqueda son solo una aplicación de la segmentación de palabras chinas. Otros, como la traducción automática, la síntesis de voz, la clasificación automática, el resumen automático, la revisión automática, etc., requieren segmentación de palabras. Debido a que el chino requiere segmentación de palabras, esto puede afectar algunas investigaciones, pero también brinda oportunidades a algunas empresas, porque si la tecnología de procesamiento informático extranjera quiere ingresar al mercado chino, primero debe resolver el problema de la segmentación de palabras chinas. En comparación con los extranjeros, los chinos tienen ventajas obvias a la hora de aprender chino.

La precisión de la segmentación de palabras es muy importante para los motores de búsqueda, pero si la velocidad de segmentación de palabras es demasiado lenta, incluso si la precisión es alta, no estará disponible para los motores de búsqueda, porque los motores de búsqueda necesitan Procese cientos de millones de páginas web. Si el tiempo de segmentación de palabras es demasiado largo, afectará seriamente la velocidad de actualización del contenido del motor de búsqueda.

Por lo tanto, para los motores de búsqueda, tanto la precisión como la velocidad de la segmentación de palabras deben cumplir requisitos muy altos. En la actualidad, la mayoría de las instituciones de investigación están estudiando la segmentación de palabras chinas. Universidad de Tsinghua, Universidad de Pekín, Instituto de Tecnología de Harbin, Academia de Ciencias de China, Instituto de Idiomas de Beijing, Universidad del Noreste, IBM Research, Microsoft China Research, etc. Todos tienen sus propios equipos de investigación, pero aparte de las tecnologías masivas, casi no hay empresas comerciales que realmente se especialicen en la segmentación de palabras chinas.