Seis métodos de clasificación de texto
La segmentación de palabras chinas es una tecnología clave en la clasificación de textos chinos. La granularidad de las características es mucho mejor que la granularidad de las palabras. La mayoría de sus algoritmos de clasificación no consideran la información del orden de las palabras, y la información gramatical de n-gramas basada en la granularidad de las palabras pierde demasiado. El siguiente es un breve resumen de la tecnología de segmentación de palabras china: segmentación de palabras basada en la coincidencia de cadenas, segmentación de palabras basada en la comprensión y segmentación de palabras basada en estadísticas [1].
1. Método de segmentación de palabras basado en la coincidencia de cadenas:
Proceso: esta es una segmentación de palabras chinas basada en un diccionario. El núcleo es establecer primero una tabla de diccionario unificada. Cuando una oración necesita segmentación de palabras, primero la oración se divide en varias partes y cada parte corresponde al diccionario uno a uno. Si la palabra está en el diccionario, la segmentación de palabras es exitosa; de lo contrario, la coincidencia continúa hasta que sea exitosa.
Núcleo: el diccionario, las reglas de segmentación de palabras y el orden de coincidencia son el núcleo.
Análisis: la ventaja es que es rápido, la complejidad del tiempo se puede mantener en O (n), la implementación es simple y el efecto es aceptable, pero no funciona bien cuando se trata de ambigüedades; y palabras desconocidas.
2. Método de segmentación de palabras basado en la comprensión: el método de segmentación de palabras basado en la comprensión logra el efecto de reconocimiento de palabras al permitir que la computadora simule la comprensión humana de las oraciones. La idea básica es realizar análisis sintáctico y semántico mientras se segmentan palabras y utilizar información sintáctica y semántica para abordar la ambigüedad. Suele constar de tres partes: subsistema de segmentación de palabras, subsistema de sintaxis y semántica y parte de control general. Bajo la coordinación de la parte de control general, el subsistema de segmentación de palabras puede obtener información sintáctica y semántica sobre palabras y oraciones para determinar la ambigüedad de la segmentación de palabras, es decir, simular el proceso de comprensión humana de las oraciones. Este método de segmentación de palabras requiere una gran cantidad de información y conocimiento del idioma. Debido a la generalidad y complejidad del conocimiento del idioma chino, es difícil organizar la información diversa del idioma en un formato que las máquinas puedan leer directamente, por lo que el sistema de segmentación de palabras basado en la comprensión aún se encuentra en la etapa experimental.
3. Método de segmentación de palabras basado en estadísticas:
Proceso: estadísticamente hablando, la segmentación de palabras es un problema de maximización de probabilidad, es decir, dividir oraciones. Con base en el corpus, cuente las probabilidades de palabras compuestas de palabras adyacentes. Cuantas más veces aparezcan palabras adyacentes, mayor será la probabilidad. Entonces, la segmentación de palabras se basa en valores de probabilidad, por lo que es importante un corpus completo.
Los principales modelos estadísticos incluyen: N-grama, modelo oculto de Markov, modelo de máxima entropía (ME), modelo de campo aleatorio condicional (CRF), etc.
2. Preprocesamiento de texto:
1. Segmentación de palabras: la segmentación de tareas chinas es esencial. Generalmente se utiliza la segmentación Jieba, que es la líder en la industria.
2. Eliminar palabras vacías: crea un diccionario de palabras vacías. Actualmente existen alrededor de 2.000 diccionarios sobre palabras vacías. Las palabras vacías incluyen principalmente algunos adverbios, adjetivos y algunas conjunciones. Mantener una tabla de palabras no indexadas es en realidad un proceso de extracción de características, que es esencialmente una parte de la selección de características.
3. Etiquetado de parte del discurso: determina la parte del discurso después del participio (verbo, sustantivo, adjetivo, adverbio...) y establece parámetros al usar el participio de Street Fighter.