¿Qué es la tecnología de segmentación de palabras clave?
Actualmente, existen tres algoritmos de segmentación de palabras chinos convencionales:
1. Método de segmentación de palabras basado en la coincidencia de cadenas.
Este método también se denomina segmentación mecánica de palabras. Haga coincidir la cadena china que se va a analizar con entradas en un diccionario de máquina "suficientemente grande" de acuerdo con una estrategia determinada. Si se encuentra una determinada cadena en el diccionario, la coincidencia se realiza correctamente (se reconoce una palabra). Según la dirección de escaneo, el método de segmentación de palabras de coincidencia de cadenas se puede dividir en coincidencia directa y coincidencia inversa de acuerdo con la coincidencia de prioridad de diferentes longitudes, y se puede dividir en coincidencia máxima (más larga) y coincidencia mínima (más corta); según si coincide con la etiqueta de parte del discurso La combinación de procesos se puede dividir en métodos simples de segmentación de palabras y métodos integrales que combinan segmentación y anotación de palabras. Varios métodos de segmentación mecánica de palabras comúnmente utilizados son los siguientes:
1) Método de coincidencia máxima positiva (dirección de izquierda a derecha);
2) Método de coincidencia máxima inversa (de derecha a izquierda) );
3) Segmentación mínima (minimizar el número de palabras recortadas de cada frase).
Los métodos anteriores también se pueden combinar entre sí, por ejemplo, el método de coincidencia máxima directa y el método de coincidencia máxima inversa se pueden combinar para formar un método de coincidencia bidireccional. Debido a las características del vocabulario chino, rara vez se utilizan la coincidencia mínima directa y la coincidencia mínima inversa. En términos generales, la precisión de la segmentación de la concordancia inversa es ligeramente mayor que la de la concordancia directa y se encuentran menos ambigüedades. Los resultados estadísticos muestran que la tasa de error de usar solo la coincidencia máxima directa es 1/169, y la tasa de error de usar solo la coincidencia máxima inversa es 1/245. Sin embargo, esta precisión está lejos de satisfacer las necesidades reales. En los sistemas de segmentación de palabras reales, la segmentación mecánica de palabras se utiliza como método de segmentación inicial, y la precisión de la segmentación debe mejorarse aún más mediante el uso de otra información del lenguaje.
Un enfoque es mejorar el método de escaneo, llamado escaneo de características o segmentación de marcadores. Primero, identificar y segmentar algunas palabras con características obvias en la cadena a analizar. Usando estas palabras como puntos de interrupción, la cadena original se puede dividir en cadenas más pequeñas y luego segmentar mecánicamente, reduciendo así la tasa de error de coincidencia. Otro método es combinar la segmentación de palabras y el etiquetado de partes del discurso, utilizar información rica sobre las partes del discurso para ayudar en las decisiones de segmentación de palabras y, a su vez, verificar y ajustar los resultados de la segmentación de palabras durante el proceso de etiquetado, mejorando así en gran medida la precisión de segmentación de palabras.
2. Método de segmentación de palabras basado en la comprensión.
Este método de segmentación de palabras permite a la computadora simular la comprensión humana de las oraciones para lograr el efecto de reconocimiento de palabras. La idea básica es realizar análisis sintáctico y semántico mientras se segmentan palabras y utilizar información sintáctica y semántica para abordar la ambigüedad. Suele incluir tres partes: subsistema de segmentación de palabras, subsistema de sintaxis y semántica y parte de control general. Bajo la coordinación de la parte de control general, el subsistema de segmentación de palabras puede obtener información sintáctica y semántica sobre palabras y oraciones para determinar la ambigüedad de la segmentación de palabras, es decir, simular el proceso de comprensión humana de las oraciones. Este método de segmentación de palabras requiere una gran cantidad de información y conocimiento del idioma. Debido a la generalidad y complejidad del conocimiento del idioma chino, es difícil organizar la información diversa del idioma en un formato que las máquinas puedan leer directamente, por lo que el sistema de segmentación de palabras basado en la comprensión aún se encuentra en la etapa experimental.
3. Método de segmentación de palabras basado en estadísticas.
Desde un punto de vista formal, una palabra es una combinación estable de palabras, por lo que en contexto, cuantas más veces aparezcan palabras adyacentes al mismo tiempo, más probabilidades hay de que formen una palabra. Por lo tanto, la frecuencia o probabilidad de palabras adyacentes puede reflejar mejor la credibilidad de la formación de palabras. Podemos contar la frecuencia de combinaciones de palabras adyacentes en el corpus y calcular su información de co-ocurrencia. Defina la información de coocurrencia de dos caracteres chinos y calcule la probabilidad de aparición * * * adyacente de dos caracteres chinos X e y. La información de coocurrencia refleja la cercanía de la combinación entre caracteres chinos. Cuando la cercanía supera un cierto umbral, se puede considerar que este grupo de palabras puede formar una palabra. Este método solo necesita contar la frecuencia de los grupos de palabras en el corpus sin dividir el diccionario, por lo que también se denomina segmentación de palabras sin diccionario o método estadístico de recuperación de palabras.
Sin embargo, este método también tiene ciertas limitaciones, como "este", "uno", "tú", "mi", "muchos", etc. A menudo extrae algunas palabras comunes de alta frecuencia en lugar de palabras, y las palabras comunes El reconocimiento es preciso, la tasa es baja y la sobrecarga de tiempo y espacio es grande. Todos los sistemas prácticos de segmentación de palabras estadísticas utilizan un diccionario de segmentación de palabras básico (diccionario de palabras comunes) para la segmentación de palabras que coinciden con cadenas y, al mismo tiempo, utilizan métodos estadísticos para identificar algunas palabras nuevas, es decir, combinan estadísticas de frecuencia de cadenas y coincidencias de cadenas, que no solo da rienda suelta a la segmentación de palabras coincidentes. Es rápido y eficiente, y utiliza segmentación de palabras sin diccionario combinada con contexto para identificar nuevas palabras y eliminar ambigüedades automáticamente.
Algunos puntos a tener en cuenta al realizar la segmentación de palabras:
1. El rendimiento temporal del algoritmo de segmentación de palabras es relativamente alto. Especialmente la búsqueda web actual tiene altos requisitos de rendimiento en tiempo real. Por lo tanto, como base del procesamiento de información en chino, la segmentación de palabras primero debe tomar el menor tiempo posible.
2. La mejora de la precisión de la segmentación de palabras no conduce necesariamente a una mejora del rendimiento de recuperación. Una vez que la segmentación de palabras alcance cierta precisión, el impacto en la recuperación de información china ya no será obvio. Aunque todavía existe un cierto impacto, este no es el cuello de botella en el rendimiento de CIR. Por lo tanto, los algoritmos de segmentación de palabras unilaterales que persiguen ciegamente una alta precisión no son adecuados para la recuperación de información china a gran escala. Cuando hay un conflicto entre tiempo y precisión, debemos encontrar un equilibrio adecuado entre ambos.
3. La granularidad de la segmentación aún puede seguir el principio de prioridad de palabras largas, pero debe estar relacionada con el procesamiento posterior en el nivel de expansión de la consulta. En la recuperación de información, los algoritmos de segmentación de palabras solo necesitan centrarse en cómo eliminar ambigüedades cruzadas. Las ambigüedades de cobertura se pueden resolver mediante la indexación secundaria de diccionarios y la expansión de consultas.
4. La precisión del reconocimiento de palabras no registradas es más importante que la tasa de recuperación. Al identificar palabras no registradas, intente asegurarse de que no haya combinaciones incorrectas y evite segmentar palabras no registradas incorrectas. Si las palabras se combinan incorrectamente en palabras no registradas, es posible que el documento correspondiente no se recupere correctamente.
Segmentación de palabras de Baidu
Primero, separe la consulta según los símbolos de segmentación. "Herramienta de teoría de recuperación de información" mediante segmentación de palabras.
Luego verifique si hay cadenas duplicadas. Si las hay, elimine las redundantes y conserve solo una. No importa si Google no considera esto después de la palabra segmentación de "teoría teórica instrumental".
Luego determine si hay inglés o números. Si es así, mantenga el inglés o los números como un todo y corte los caracteres chinos antes y después. Consulta "descarga BT de película" después de la segmentación de palabras.
Si la cadena solo contiene menos de 3 caracteres chinos o igual, permanecerá sin cambios. Cuando la longitud de la cadena excede los 4 caracteres chinos, el programa de segmentación de palabras de Baidu comenzará a desmembrar la cadena.
Los tipos de algoritmos de segmentación de palabras incluyen coincidencia máxima directa, coincidencia máxima inversa, coincidencia máxima bidireccional, método de modelo de lenguaje y algoritmo de ruta más corta. Para juzgar si un sistema de segmentación de palabras es bueno o no, hay dos puntos clave: uno es la capacidad de eliminar la ambigüedad; el otro es el reconocimiento de palabras desconocidas en el diccionario, como nombres de personas, lugares y organizaciones.
La segmentación de palabras de Baidu utiliza al menos dos diccionarios, uno es un diccionario general y el otro es un diccionario especial (nombres de personas, nombres de lugares, palabras nuevas, etc.). divide las palabras y las palabras restantes se dividen en puntos del diccionario ordinario.
Baidu utiliza un algoritmo de coincidencia máxima bidireccional para la segmentación de palabras.