Habilidades-Segmentación de palabras-Diferencias en la segmentación de palabras en chino e inglés
2. Eliminar palabras vacías.
3. Extraer raíces (token de un paso, $term).
Ejemplo: el aprendizaje automático es un campo de la informática que utiliza técnicas estadísticas para dotar a los sistemas informáticos de la capacidad de aprender a partir de los datos.
Paso 1: El inglés se compone de signos de puntuación, espacios y palabras, por lo que sólo las palabras están separadas por espacios y signos de puntuación.
Paso 2: Elimina las palabras vacías.
Palabras vacías: Palabras vacías
En inglés, son una combinación de to y from.
Las palabras más utilizadas son en realidad artículos, preposiciones y conjunciones. Si estas palabras se ponen en el modelo para entrenamiento, afectarán en gran medida la eficiencia del entrenamiento del modelo.
(máquina, aprendizaje, campo, computadora, ciencia, uso, estadística, tecnología, sistema, habilidad, aprendizaje, datos)
Paso 3: Extraer raíces
Este paso es principalmente para idiomas occidentales (inglés, latín, francés, etc.). En el ejemplo anterior, aprender y aprender contienen la misma raíz, por lo que en la mayoría de los métodos de extracción de características, aprender y aprender se fusionarán en un. $término. (máquina, aprendizaje, campo, computadora, ciencia, uso, estadística, tecnología, sistema, habilidad, datos)
A diferencia del inglés, las oraciones chinas se presentan como una secuencia continua de caracteres y no hay separador. por lo que la segmentación de palabras chinas es relativamente más difícil.
Una frase sin signos de puntuación tendrá un significado diferente si se añaden signos de puntuación diferentes.
Ejemplo: No se permiten fideos de arroz, pollos, patos, pescado ni dinero.
Puedes hacerlo sin arroz y harina, pollos, patos, pescado y dinero.
No hay arroz, ni fideos, ni pollo, ni pato, ni pescado, ni carne, ni dinero.
Para la segmentación actual de palabras chinas, muchos términos de Internet también son difíciles de segmentar. No tengo ni idea.
En Python, usamos el participio jieba.
Principio de segmentación de palabras de Street Fighter
1. Se implementa un escaneo eficiente de gráficos de palabras en función de la estructura de árbol trie y se genera el gráfico acíclico dirigido DAG, que se compone de todos los posibles. situaciones de formación de palabras de caracteres chinos en la oración.
2. Utilice programación dinámica para encontrar la ruta máxima y encontrar la combinación de segmentación máxima según la frecuencia de las palabras.
3. Para palabras no registradas, utilizamos HMM o modelo de máxima entropía para lograr la segmentación de palabras.