En los algoritmos de los motores de búsqueda, ¿qué es un índice directo? ¿Qué es un índice invertido?
La calidad de la segmentación de palabras está relacionada con la precisión de la consulta y el tamaño del índice generado. En el proceso de desarrollo de la segmentación de palabras chinas, la segmentación binaria se utilizaba a menudo en los primeros días. El principio básico de este método es dividir oraciones que contienen chino en palabras binarias, independientemente del significado de las palabras, y solo indexar palabras binarias. Por lo tanto, la cantidad de palabras separadas por este método es grande, lo que resulta en una gran cantidad de índices y se recuperarán datos inútiles en la consulta. La ventaja es que el algoritmo es simple y los datos recuperados no se perderán. Luego se desarrolló el método de segmentación de palabras de máxima coincidencia, que se divide en segmentación de palabras máxima hacia adelante y segmentación de palabras máxima inversa. Su principio es similar a buscar en un diccionario. Genera un diccionario para palabras de uso común y hace coincidir las palabras en el diccionario al máximo durante el proceso de análisis de oraciones, dividiendo así la oración en cadenas de palabras significativas. El método de segmentación directa de palabras en el método de coincidencia máxima es propenso a errores al distinguir palabras formales. Por ejemplo, "Joyas y ropa" tratará "kimono" como una palabra separada. La base de datos Dameng utiliza un método mejorado de segmentación máxima inversa de palabras, que mejora la precisión en comparación con el método directo. El más complejo es el método de segmentación de palabras por medios estadísticos. Este método utiliza una cadena de Markov oculta, es decir, la probabilidad de la última palabra depende de la probabilidad de la palabra anterior y, finalmente, cuenta la probabilidad máxima de todas las palabras como base para la segmentación de palabras. La tasa de reconocimiento del método para nuevos sustantivos y nombres de lugares es mucho mayor que la del método de coincidencia máxima, y la precisión aumenta a medida que aumenta el número de textos de muestra.
El método de segmentación de palabras binarias y el método estadístico son independientes del diccionario, mientras que el método de segmentación de palabras de máxima coincidencia se basa en el diccionario. El contenido del diccionario determina la calidad de la estructura de segmentación de palabras.
El índice de búsqueda de texto completo se llama índice invertido. La razón por la que se llama índice invertido es porque cada palabra se utiliza como elemento de índice y el texto que contiene la palabra se busca en función del índice. artículo. Por lo tanto, los índices son todos palabras y las etiquetas de los textos registrados únicos tienen una relación de uno a muchos. Ordene los términos del índice y localice el texto que contenga esos términos según los términos ordenados.
Paso 1) Lea la oración completa en la variable str y vaya al paso 2.
Paso 2) Lea 1 palabra del final de la oración en la palabra variable e ingrese al paso 3.
Paso 3) Encuentra la palabra guardada en word en el diccionario. Si existe, guarde la palabra y vaya al paso 4, en caso contrario vaya al paso 5).
Paso 4) Si es la palabra más grande del diccionario o excede el número máximo de palabras (identificadas como una palabra nueva), elimine la palabra del final de la cláusula y regrese al paso 2.
Paso 5) Lea la palabra anterior en palabras para formar una nueva palabra, vaya al paso 3)
La estructura de datos de almacenamiento del tesauro y el algoritmo de coincidencia de las palabras en el tesauro
Las palabras en la memoria se almacenan en una estructura jerárquica.
Supongamos que en el diccionario aparecen las siguientes palabras: China, República de China y Democracia Popular Nacional.
La memoria está organizada en capas de la siguiente manera, donde cada cuadrado representa una palabra y la flecha apunta a la palabra anterior de esa palabra.