Colección de citas famosas - Colección de consignas - ¿Cuáles son los métodos de segmentación de palabras?

¿Cuáles son los métodos de segmentación de palabras?

La segmentación de palabras significa dividir una oración en palabras individuales. Para el inglés, una palabra es una palabra. Debido al formato de escritura del inglés, debe haber espacios entre las palabras, por lo que es fácil para los motores de búsqueda procesar una oración en una colección de palabras. Pero en chino no hay espacios entre palabras y los motores de búsqueda no pueden procesar directamente oraciones en un grupo de palabras, lo que requiere un proceso de segmentación de palabras. A continuación se ofrece una breve introducción al método de segmentación de palabras chinas en los motores de búsqueda.

1. Método de segmentación de palabras basado en diccionario

También conocida como "segmentación mecánica de palabras", las oraciones segmentadas se relacionan con las palabras del diccionario. Si la coincidencia es exitosa, la parte coincidente se trata como una palabra y finalmente se genera una secuencia de palabras. Según la dirección y la longitud de prioridad de la segmentación de palabras, se puede dividir en los siguientes cuatro métodos:

1. Método de coincidencia directa

Haga coincidir el orden positivo de la oración (desde la izquierda). a la derecha), como desarrollo. El país chino se divide en: desarrollo/China/hogar.

2. Método de coincidencia inversa

Haga coincidir oraciones en orden inverso (de derecha a izquierda), por ejemplo: países en desarrollo, divididos en: en desarrollo/China/país.

3. Método de coincidencia máxima

Según la longitud de la palabra más larga del diccionario, si no, utilice la longitud secundaria para la segmentación. Supongamos que las palabras más largas del diccionario son cuatro, tomando como ejemplo "países en desarrollo", e intercepte los primeros cuatro juicios sobre "China en desarrollo". Un elemento de palabra si coincide con una palabra del diccionario. Si no hay coincidencia, se interceptan las tres primeras palabras para juzgarlas, y así sucesivamente hasta segmentar la palabra.

4. Método de coincidencia mínima

Es exactamente lo opuesto al método de coincidencia máxima.

2. Método de segmentación de palabras basado en la comprensión

Para resolver el problema de ambigüedad en la segmentación de palabras, el motor de búsqueda simula completamente el proceso de comprensión humana de las oraciones y realiza análisis sintácticos y Análisis semántico de las oraciones. Este método requiere una gran cantidad de conocimiento e información del idioma, tiene un proceso de cálculo complejo y requisitos relativamente altos en el hardware básico del motor de búsqueda.

En tercer lugar, método de segmentación de palabras basado en estadísticas

Con el desarrollo de los tiempos e Internet, se producirán muchas palabras nuevas, como algunos nombres personales, nuevos términos profesionales y nuevos nombres de eventos (por ejemplo, XX Gate, XX Emperor). Estas palabras no se incluyen en el diccionario y pasan a ser "palabras no registradas". La segmentación de estas palabras se basa en métodos estadísticos de segmentación de palabras. Los motores de búsqueda encuentran "s", "e" y "etc." en el corpus contando las frecuencias de estas palabras.