Colección de citas famosas - Colección de consignas - Principios básicos de la segmentación de palabras

Principios básicos de la segmentación de palabras

Este artículo solo clasifica el conocimiento de PNL y consolida la detección y reparación oportuna de fugas.

? Al procesar texto, lo primero que debe hacer es la segmentación de palabras. El inglés se puede dividir en palabras usando espacios, pero a veces es necesario tratar varias palabras como una sola palabra. Por ejemplo, algunos sustantivos como "Nueva York" deben tratarse como una sola palabra. Pero el chino no tiene espacios, por lo que la segmentación de palabras es un problema que debe resolverse especialmente. En inglés y chino, los principios de segmentación de palabras son similares. Una descripción general de los principios de la segmentación de palabras en la minería de textos.

Tres métodos convencionales de segmentación de palabras:

? La segmentación de palabras moderna casi siempre se basa en estadísticas y el contenido de la muestra estadística proviene de algunos corpus estándar.

? Si hay una oración: "Xiao Ming viene al distrito de Liwan", esperamos que el resultado de la segmentación de palabras después de las estadísticas del corpus sea: "Distrito de Xiao Ming/Lai/Liwan", no "Distrito de Xiao Ming/Lai/Li/Wan". Entonces, ¿cómo se hace esto?

? Desde un punto de vista estadístico, esperamos que la probabilidad de que aparezca una oración después de la segmentación de palabras "Xiaoming/Lailai/Liwan/District" sea mayor que la de "Xiaoming/Lailai/Liwan/District". La expresión matemática es: Si hay una oración s, tiene m opciones de segmentación de palabras,

donde el subíndice representa el número de palabras en la primera segmentación de palabras. ¿Y si elegimos lo mejor? Para un método de segmentación de palabras, entonces la probabilidad de distribución estadística correspondiente a este método de segmentación de palabras debe ser la más grande, es decir:

Pero no es fácil trabajar con nuestra distribución de probabilidad porque implica la distribución conjunta de palabras. En PNL, para simplificar los cálculos, usualmente usamos la hipótesis de Markov, es decir, la probabilidad de cada segmentación de palabras solo está relacionada con la segmentación de palabras anterior, es decir:

Según la hipótesis de Markov, la distribución conjunta es:

p>

Y a través de nuestro corpus estándar, podemos calcular aproximadamente la probabilidad condicional binaria entre todos los segmentos de palabras. Por ejemplo, para dos palabras cualesquiera, su distribución de probabilidad condicional puede ser. expresado aproximadamente como:

dónde (?1,?2) ¿Mostrar? ¿El número de veces que 1 y ?2 aparecen adyacentes en el corpus, donde (?1) y (?2) respectivamente? 1,? 2. El número de veces que aparece en el corpus.

? Utilizando la probabilidad estadística establecida por el corpus, para una nueva oración, calculando las probabilidades de distribución conjunta correspondientes a varios métodos de segmentación de palabras, encontrar el método de segmentación de palabras correspondiente a la probabilidad máxima es la segmentación de palabras óptima.

2.1 Idea de coincidencia máxima positiva MM

Ejemplo: queremos segmentar la oración sobre el puente del río Nanjing Yangtze, de acuerdo con el principio de coincidencia máxima positiva:

2.2 ¿Algoritmo de coincidencia máxima inversa RMM

? Este algoritmo es el pensamiento inverso de la coincidencia máxima directa y la coincidencia no tiene éxito. Se eliminará la primera palabra del campo coincidente. Los experimentos muestran que el algoritmo de coincidencia máxima inversa es mejor que el algoritmo de coincidencia máxima directa.

Ejemplo: saque los últimos cuatro caracteres del puente del río Yangtze de Nanjing "Puente del río Yangtze", busque uno que coincida en el diccionario y recórtelos en palabras. El resultado es: Nanjing, puente del río Yangtze.

2.3 ¿BM de coincidencia máxima bidireccional

? El método de coincidencia máxima bidireccional compara los resultados de la segmentación de palabras obtenidos mediante el método de coincidencia máxima directa con los resultados de la segmentación de palabras obtenidos mediante el método de coincidencia máxima inversa para determinar el método de segmentación de palabras correcto.

Ejemplo: Coincidencia máxima bidireccional, es decir, se separan todas las palabras máximas posibles. Las oraciones anteriores se pueden dividir en: ciudad de Nanjing, alcalde de Nanjing, puente del río Yangtze, río y puente.

2.4 ¿Cómo crear una marca de segmentación

? Recopile etiquetas de segmentación de palabras, procéselas antes de la segmentación automática de palabras y luego utilice MM y RMM para el procesamiento detallado.

? Con el establecimiento de corpus a gran escala y la investigación y el desarrollo de métodos estadísticos de aprendizaje automático, la segmentación de palabras chinas basada en estadísticas se ha convertido gradualmente en un método generalizado.

Significado: Cada palabra se considera la unidad más pequeña de una palabra. Si una conjunción aparece con más frecuencia en diferentes textos, demuestra que es probable que la conjunción sea una sola palabra. Por lo tanto, podemos utilizar la frecuencia de palabras adyacentes para reflejar la confiabilidad de la palabra y contar la frecuencia de combinaciones de palabras adyacentes en el corpus. Cuando la frecuencia de combinación es mayor que un cierto valor crítico, podemos pensar que este grupo de palabras puede formar una palabra.

Principales modelos estadísticos:

modelo n-ario

? Confiar únicamente en la primera palabra sería demasiado arbitrario. ¿Puedes poner las dos primeras palabras?

? Esto también es posible, pero el importe del cálculo de la distribución conjunta aumentará considerablemente. Generalmente nos referimos a los modelos que solo se basan en la primera palabra como modelos binarios y a los modelos que se basan en las dos primeras palabras como modelos ternarios. Por analogía, podemos establecer modelos de cuatro elementos, modelos de cinco elementos,… hasta llegar al modelo general de N elementos. Cuanto más atrás, mayor será la complejidad computacional de la distribución de probabilidad. Por supuesto, los principios del algoritmo son similares.

En aplicaciones prácticas, n es generalmente muy pequeño, normalmente menor que 4. La razón principal es que la complejidad espacial de la distribución de probabilidad del modelo n-ario es o(), donde |V| es el tamaño del corpus y n es el número de elementos del modelo. Cuando n aumenta, la complejidad aumenta exponencialmente.

? Aunque el método de segmentación de palabras del modelo n-ario es muy bueno, existen muchos problemas en la aplicación práctica.

¿Algoritmo de Viterbi y segmentación de palabras

? Para simplificar la descripción de los principios, nuestra discusión se basa en un modelo binario.

? Para una oración larga con muchas segmentaciones de palabras posibles, por supuesto, puede utilizar un método violento para calcular las probabilidades de todas las segmentaciones de palabras posibles y luego encontrar el mejor método de segmentación de palabras. Sin embargo, el algoritmo de Viterbi puede simplificar enormemente el tiempo necesario para encontrar la segmentación de palabras óptima.

? El algoritmo de decodificación HMM de modelos ocultos de Markov generalmente usa el algoritmo de Viterbi, pero es un método general para encontrar la ruta más corta en una secuencia. Puede usarse no solo para HMM, sino también para otros algoritmos de ruta más corta de secuencia, como el óptimo. segmentación de palabras.

? El algoritmo de Viterbi utiliza programación dinámica para resolver este problema de segmentación óptima de palabras. La programación dinámica requiere que la ruta local también sea parte de la ruta óptima. Claramente, nuestra pregunta es válida. Primero, veamos un ejemplo de participio simple: "La vida es como un sueño". Sus posibles segmentaciones de palabras se pueden representar mediante el siguiente diagrama de probabilidad:

Referencia: blogs.com/pinard/p/6677078.html