El significado de motor de búsqueda
Los motores de búsqueda se refieren a la recopilación de información de Internet basándose en ciertas estrategias y utilizando programas informáticos específicos. Después de organizar y procesar la información, brindan servicios de recuperación a los usuarios y muestran información relevante recuperada por el sistema del usuario.
Cómo funciona
Rastreo de la web
Rastreo
Cada motor de búsqueda independiente tiene su propio programa de web scraping (spider). Spider rastrea continuamente páginas web a lo largo de los hipervínculos de las páginas web. La página web rastreada se denomina instantánea de la página web. Dado que la aplicación de hipervínculos es muy común en Internet, en teoría, a partir de un cierto rango de páginas web, se puede recopilar la gran mayoría de las páginas web.
Procesamiento de páginas web
Después de que el motor de búsqueda captura la página web, necesita realizar una gran cantidad de trabajo de preprocesamiento antes de poder proporcionar servicios de recuperación. Entre ellos, el más importante es extraer palabras clave y crear archivos de índice. Otros incluyen eliminar páginas web duplicadas, segmentación de palabras (chino), determinar tipos de páginas web, analizar hipervínculos, calcular la importancia/riqueza de las páginas web, etc.
Proporcionar servicios de recuperación
Los usuarios ingresan palabras clave para buscar y el motor de búsqueda encuentra páginas web que coinciden con las palabras clave de la base de datos del índice para comodidad de los usuarios, además de la página web; título y URL. También se proporciona un extracto de la página web junto con otra información.