Índice invertido del motor de búsqueda
Un índice invertido consta de una lista de todas las palabras que no se repiten en un documento, y para cada palabra, hay una lista de documentos que la contienen.
Ejemplo:
1. Supongamos que la colección de documentos contiene cinco documentos, como se muestra en el directorio de cada documento. La columna más a la izquierda de la tabla es el número de documento correspondiente a cada documento. . Nuestra tarea es crear un índice invertido para esta colección de documentos.
2. El chino y el inglés son idiomas diferentes y no existen separadores claros entre palabras, por lo que el sistema de segmentación de palabras primero debe segmentar automáticamente el documento en secuencias de palabras. De esta forma, cada documento se convierte en un flujo de datos formado por una secuencia de palabras. Para facilitar el procesamiento posterior del sistema, es necesario asignar a cada palabra diferente un número de palabra único y registrar qué documentos contienen esta palabra. Después de dicho procesamiento, podemos obtener el índice invertido más simple.
La columna "ID de palabra" registra el número de palabras para cada palabra, la segunda columna es la palabra correspondiente y la tercera columna es el índice invertido correspondiente a cada palabra.
3. Además, el sistema de indexación también puede registrar más información. La siguiente tabla también registra información de frecuencia de términos (TF), que es la cantidad de veces que aparece una palabra en el documento. La razón por la que se registra esta información es porque la información de frecuencia de palabras es un factor de cálculo importante al calcular la similitud entre consultas y documentos en las clasificaciones de resultados de búsqueda, por lo que se registra en la tabla de inversión para facilitar el cálculo de la puntuación en clasificaciones posteriores.
4. La lista invertida también puede registrar la información de posición de las palabras en el documento.
(1,<11>,1),(2,<7>,1),(3,<3,9>,2)
Con Con este sistema de indexación, los motores de búsqueda pueden Responda fácilmente a las consultas de los usuarios. Por ejemplo, si el usuario ingresa la palabra de consulta "Facebook", el sistema de búsqueda busca en el índice invertido y puede leer los documentos que contienen esta palabra. Estos documentos son los resultados de la búsqueda proporcionados al usuario. Al utilizar información de frecuencia de términos e información de frecuencia de documentos, estos resultados de búsqueda de candidatos se pueden clasificar, se calcula la similitud del documento con la consulta y el resultado se ordena de mayor a menor según la puntuación de similitud como parte de la información interna del sistema de búsqueda. proceso.
Ejemplo:
Rápido y rápido aparecen como palabras separadas y los usuarios pueden pensar que son la misma palabra.
Los zorros son muy parecidos a los zorros, al igual que los perros a los perros. Tienen la misma raíz de la palabra.
Aunque Jumped y jump no tienen la misma raíz, tienen significados similares y son sinónimos.
No se pueden buscar documentos que contengan Quick fox.
Utilizando reglas de planificación estándar, al establecer un índice invertido, las palabras separadas se procesarán en consecuencia para aumentar la probabilidad de encontrar documentos relevantes en búsquedas posteriores.