¿Cuáles son los métodos de segmentación de palabras?
1. Método de segmentación de palabras basado en diccionario
También conocida como "segmentación mecánica de palabras", las oraciones segmentadas se relacionan con las palabras del diccionario. Si la coincidencia es exitosa, la parte coincidente se trata como una palabra y finalmente se genera una secuencia de palabras. Según la dirección y la longitud de prioridad de la segmentación de palabras, se puede dividir en los siguientes cuatro métodos:
1. Método de coincidencia directa
Haga coincidir el orden positivo de la oración (desde la izquierda). a la derecha), como desarrollo. El país chino se divide en: desarrollo/China/hogar.
2. Método de coincidencia inversa
Haga coincidir oraciones en orden inverso (de derecha a izquierda), por ejemplo: países en desarrollo, divididos en: en desarrollo/China/país.
3. Método de coincidencia máxima
Según la longitud de la palabra más larga del diccionario, si no, utilice la longitud secundaria para la segmentación. Supongamos que las palabras más largas del diccionario son cuatro, tomando como ejemplo "países en desarrollo", e intercepte los primeros cuatro juicios sobre "China en desarrollo". Un elemento de palabra si coincide con una palabra del diccionario. Si no hay coincidencia, se interceptan las tres primeras palabras para juzgarlas, y así sucesivamente hasta segmentar la palabra.
4. Método de coincidencia mínima
Es exactamente lo opuesto al método de coincidencia máxima.
2. Método de segmentación de palabras basado en la comprensión
Para resolver el problema de ambigüedad en la segmentación de palabras, el motor de búsqueda simula completamente el proceso de comprensión humana de las oraciones y realiza análisis sintácticos y Análisis semántico de las oraciones. Este método requiere una gran cantidad de conocimiento e información del idioma, tiene un proceso de cálculo complejo y requisitos relativamente altos en el hardware básico del motor de búsqueda.
En tercer lugar, método de segmentación de palabras basado en estadísticas
Con el desarrollo de los tiempos e Internet, se producirán muchas palabras nuevas, como algunos nombres personales, nuevos términos profesionales y nuevos nombres de eventos (por ejemplo, XX Gate, XX Emperor). Estas palabras no se incluyen en el diccionario y pasan a ser "palabras no registradas". La segmentación de estas palabras se basa en métodos estadísticos de segmentación de palabras. Los motores de búsqueda encuentran "s", "e" y "etc." en el corpus contando las frecuencias de estas palabras.