Colección de citas famosas - Diccionario de frases chinas - Cómo lidiar con sinónimos chinos usando la segmentación de palabras tartamudas en Python

Cómo lidiar con sinónimos chinos usando la segmentación de palabras tartamudas en Python

Segmentación de palabras chinas con Python: segmentación de palabras tartamudas

La segmentación de palabras chinas es una tarea básica en el procesamiento de textos chinos. La segmentación de palabras tartamudas se utiliza para la segmentación de palabras chinas. Hay tres principios básicos de implementación:

Se implementa un escaneo eficiente de gráficos de palabras basado en la estructura de árbol Trie y un gráfico acíclico dirigido (DAG) compuesto por todas las posibles formaciones de palabras de caracteres chinos en la oración.

Se utiliza programación dinámica para encontrar la ruta de máxima probabilidad y la combinación de segmentación máxima según la frecuencia de las palabras

Para palabras no registradas, se utiliza un modelo HMM basado en la capacidad de formación de palabras de los caracteres chinos. y se utiliza el algoritmo de Viterbi

Instalación (entorno Linux)

Descarga el paquete de herramientas, descomprímelo e ingresa al directorio, ejecuta: python setup.py install

Modo

Modo predeterminado, que intenta cortar la oración en la forma más precisa, adecuada para el análisis de texto

Modo completo, escanea todas las palabras de la oración que se pueden convertir en palabras, adecuado para motores de búsqueda

Interfaz

p>

El componente solo proporciona el método jieba.cut para la segmentación de palabras

El método de corte acepta dos parámetros de entrada:

El primer parámetro es la cadena que necesita ser segmentada

El parámetro cut_all se usa para controlar el modo de segmentación de palabras

La cadena a segmentar se puede una cadena gbk, una cadena utf-8 o unicode

La estructura devuelta por jieba.cut es un generador iterable, puede usar un bucle for para obtener cada palabra (unicode) obtenida después de la segmentación de palabras, o puedes usar list(jieba.cut(...)) para convertirlo en una lista

Instancia

p>

#!

importar jieba

seg_list = jieba.cut("Vine a la Universidad Tsinghua en Beijing", cut_all = True)

imprimir "Modo completo:", ' '.join(seg_list)

seg_list = jieba.cut("Vine a la Universidad Tsinghua en Beijing")

print "Modo predeterminado:", ' '.join(seg_list) )