Colección de citas famosas - Mensajes de felicitación - Cómo utilizar el diccionario de segmentación de palabras chinas

Cómo utilizar el diccionario de segmentación de palabras chinas

Este método, también conocido como segmentación mecánica de palabras, relaciona la cadena china que se va a analizar con entradas en un diccionario automático "suficientemente grande" de acuerdo con una estrategia determinada. Si se encuentra una determinada cadena en el diccionario, la coincidencia se realiza correctamente (se reconoce una palabra). Según la dirección de escaneo, el método de segmentación de palabras de coincidencia de cadenas se puede dividir en coincidencia directa y coincidencia inversa de acuerdo con la coincidencia de prioridad de diferentes longitudes, y se puede dividir en coincidencia máxima (más larga) y coincidencia mínima (más corta); según si coincide con la etiqueta de parte del discurso La combinación de procesos se puede dividir en métodos simples de segmentación de palabras y métodos integrales que combinan segmentación y anotación de palabras. Varios métodos de segmentación mecánica de palabras comúnmente utilizados son los siguientes:

1) Método de coincidencia máxima positiva (dirección de izquierda a derecha);

2) Método de coincidencia máxima inversa (de derecha a izquierda) );

3) Segmentación mínima (minimizar el número de palabras recortadas de cada frase).

Los métodos anteriores también se pueden combinar entre sí. Por ejemplo, el método de coincidencia máxima directa y el método de coincidencia máxima inversa se pueden combinar para formar un método de coincidencia bidireccional.

Los resultados estadísticos muestran que la tasa de error al usar solo la coincidencia máxima directa es 1/169, y la tasa de error al usar solo la coincidencia máxima inversa es 1/245. Sin embargo, esta precisión está lejos de satisfacer las necesidades reales. En los sistemas de segmentación de palabras reales, la segmentación mecánica de palabras se utiliza como método de segmentación inicial, y la precisión de la segmentación debe mejorarse aún más mediante el uso de otra información del lenguaje.