Cómo lidiar con sinónimos chinos usando la segmentación de palabras tartamudas en Python
Segmentación de palabras chinas con Python: segmentación de palabras tartamudas
La segmentación de palabras chinas es una tarea básica en el procesamiento de textos chinos. La segmentación de palabras tartamudas se utiliza para la segmentación de palabras chinas. Hay tres principios básicos de implementación:
Se implementa un escaneo eficiente de gráficos de palabras basado en la estructura de árbol Trie y un gráfico acíclico dirigido (DAG) compuesto por todas las posibles formaciones de palabras de caracteres chinos en la oración.
Se utiliza programación dinámica para encontrar la ruta de máxima probabilidad y la combinación de segmentación máxima según la frecuencia de las palabras
Para palabras no registradas, se utiliza un modelo HMM basado en la capacidad de formación de palabras de los caracteres chinos. y se utiliza el algoritmo de Viterbi
Instalación (entorno Linux)
Descarga el paquete de herramientas, descomprímelo e ingresa al directorio, ejecuta: python setup.py install
Modo
Modo predeterminado, que intenta cortar la oración en la forma más precisa, adecuada para el análisis de texto
Modo completo, escanea todas las palabras de la oración que se pueden convertir en palabras, adecuado para motores de búsqueda
Interfaz
p>El componente solo proporciona el método jieba.cut para la segmentación de palabras
El método de corte acepta dos parámetros de entrada:
El primer parámetro es la cadena que necesita ser segmentada
El parámetro cut_all se usa para controlar el modo de segmentación de palabras
La cadena a segmentar se puede una cadena gbk, una cadena utf-8 o unicode
La estructura devuelta por jieba.cut es un generador iterable, puede usar un bucle for para obtener cada palabra (unicode) obtenida después de la segmentación de palabras, o puedes usar list(jieba.cut(...)) para convertirlo en una lista
Instancia
p>#!
importar jieba
seg_list = jieba.cut("Vine a la Universidad Tsinghua en Beijing", cut_all = True)
imprimir "Modo completo:", ' '.join(seg_list)
seg_list = jieba.cut("Vine a la Universidad Tsinghua en Beijing")
print "Modo predeterminado:", ' '.join(seg_list) )