¿Qué es un algoritmo de segmentación de palabras?
1.
Por ejemplo, si buscamos la palabra "reciclaje de teléfonos móviles" en Baidu, Baidu primero dividirá la palabra en dos palabras: teléfono móvil y reciclaje. En este momento, Baidu primero buscará la palabra teléfono móvil en la biblioteca y luego realizará la primera ronda de selección.
Elimine la palabra "teléfono móvil" de la página web, mantenga solo los resultados con la palabra "teléfono móvil" y luego seleccione la página con la palabra "reciclar" de las páginas web filtradas, y luego Según los resultados obtenidos, la puntuación de la página clasifica a los usuarios.
2. Cálculo del tema de la página web
Como se mencionó en el blog de iluminación anterior, Baidu Spider es solo una máquina y no piensa como un humano. Al procesar artículos, Baidu Spider también los dividirá en texto. Si la palabra teléfono móvil aparece con mucha frecuencia en el artículo, que es la densidad de palabras clave, entonces esta página también se caracterizará como un artículo sobre teléfonos móviles.
Los motores de búsqueda calculan las páginas web mediante algoritmos de segmentación de palabras. Si puede utilizar el algoritmo de segmentación de palabras para diseñar la página web de manera razonable, obtendrá una buena puntuación.
Los algoritmos de segmentación de palabras chinas se pueden dividir aproximadamente en tres categorías:
La primera se basa en la coincidencia de cadenas, es decir, en el escaneo de cadenas. Si se encuentra que una subcadena de una cadena es igual a una palabra en el diccionario, se considera una coincidencia, como la segmentación mecánica de palabras. Este tipo de segmentación de palabras generalmente agrega algunas reglas heurísticas, como "coincidencia máxima directa/inversa" y "prioridad de palabras largas".
La segunda categoría son los métodos de segmentación de palabras basados en estadísticas y aprendizaje automático. Modelaron el chino basándose en partes del discurso anotadas manualmente y características estadísticas, es decir, entrenaron parámetros del modelo basados en datos de observación (corpus anotado) y luego calcularon las probabilidades de varias segmentaciones de palabras a través del modelo durante la etapa de segmentación de palabras, y tomaron la resultado de segmentación de palabras con la mayor probabilidad como resultado final.
Los modelos de anotación de secuencia comunes incluyen HMM y CRF. Este algoritmo de segmentación de palabras puede manejar muy bien la ambigüedad y las palabras no registradas, y el efecto es mejor que antes, pero requiere una gran cantidad de datos de anotaciones manuales y la velocidad de segmentación de palabras es lenta.
El tercer método consiste en dejar que la computadora simule la comprensión humana de oraciones para reconocer palabras. Debido a la complejidad de la semántica china, es difícil organizar la información de diversos idiomas en una forma que las máquinas puedan reconocer. En la actualidad, este sistema de segmentación de palabras aún se encuentra en etapa experimental.