Colección de citas famosas - Colección de consignas - Principios de la tecnología de segmentación de palabras

Principios de la tecnología de segmentación de palabras

¿Cómo segmenta Baidu las palabras? Hoy en día, la tecnología de segmentación de palabras está muy madura. Dividido en tres tecnologías. Este es un método de segmentación de palabras común utilizado por Baidu. Los métodos de segmentación de palabras para la coincidencia de cadenas se pueden dividir en tres tipos.

(1). Método de coincidencia máxima hacia adelante

Divide una palabra de izquierda a derecha.

Por ejemplo, "No sé de qué estás hablando"

¿Cómo dividir esta oración usando el método de coincidencia máxima positiva? "No sé, ¿de qué estás hablando?"

(2) Método de coincidencia máxima inversa

No sé de qué estás hablando, método de coincidencia máxima inversa , hablemos de lo anterior ¿Cómo se divide esa sección? "No, lo sé, ¿de qué estás hablando?", Puntos de comparación, el método de coincidencia máxima inversa es de derecha a izquierda.

(3). Es el método de segmentación de palabras por el camino más corto.

Es decir, el número de palabras que hay que eliminar de un párrafo es el mínimo.

"No sé de qué estás hablando" es el método de segmentación de palabras de ruta más corta, que significa dividir la oración anterior en la menor cantidad de palabras. "No sé, ¿de qué estás hablando?" Este es el método de segmentación de palabras de ruta más corta, con solo tres palabras de diferencia.

(4) Método de coincidencia máxima bidireccional.

Existe una situación especial, es decir, se considera que la combinación de las dos palabras clave antes y después tiene poca diferencia en viscosidad. Si los resultados de la búsqueda también contienen estos dos grupos de palabras, Baidu realizará la palabra. Coincidencia de segmentación en direcciones positivas y negativas. Según las estadísticas de frases, encontrarás que dos palabras adyacentes aparecen con mayor frecuencia, por lo que esta palabra es muy importante. Puede usarse como delimitador en una cadena proporcionada por el usuario, dividiendo así palabras.

Por ejemplo, “mío, tuyo, muchos, aquí, esto, allá”, etc. Estas palabras aparecen con más frecuencia, por lo que están separadas de estas palabras.