Colección de citas famosas - Frases motivadoras - ¿Cómo funcionan los motores de búsqueda?

¿Cómo funcionan los motores de búsqueda?

Todo el proceso de trabajo de un motor de búsqueda incluye tres partes:

1 rastreo

Los motores de búsqueda no pueden rastrear manualmente las páginas de los sitios web de Internet, por lo que los ingenieros de Baidu y Google escribieron un programa. nombró a esta araña rastreadora automatizada (también conocida como "robot" o "rastreador web").

La información en Internet se almacena en innumerables servidores. Si algún motor de búsqueda quiere responder a la búsqueda de un usuario, primero debe almacenar la página web en su propio servidor local, que depende de los rastreadores web. Envía continuamente solicitudes a varios sitios web y almacena las páginas web obtenidas.

El enfoque habitual es utilizar enlaces entre páginas web para comenzar con una página web y extraer enlaces a otras páginas web, tratarlos como objetos para la siguiente solicitud y repetir el proceso. Hay muchos detalles a considerar. Por ejemplo, evite páginas web con enlaces circulares; analice documentos web y extraiga enlaces en ellos; maneje los errores cuando los enlaces no se puedan abrir, etc.

2. Índice

El índice sirve para ayudar al programa a buscar rápidamente. Todo el mundo ha utilizado un diccionario inglés-chino. La parte al principio del diccionario ordenada alfabéticamente es el índice. Lo mismo ocurre con los motores de búsqueda. Aquí presentaremos la primera y más importante estructura de datos: la lista invertida.

El buscador dispone de una lista invertida por cada palabra que aparece en el documento. Registra en cuántos documentos aparece la palabra, en qué documentos aparece, cuántas veces aparece en cada sección del documento y dónde aparece. De esta forma, a la hora de buscar palabras relacionadas, Google no tiene que recorrer todos los documentos, solo necesita encontrar la lista invertida correspondiente a cada palabra para saber dónde aparece la palabra.

Cada documento web contiene más que información textual. También puede incluir nombres de archivos, referencias, etc. Para mejorar la calidad de la búsqueda, los motores de búsqueda deben procesar diferentes partes del documento por separado y crear listas invertidas. Cada parte de la palabra debe agregarse a la lista invertida de esa parte.

3. Buscar

Con el índice podrás encontrar rápidamente lo que necesitas. Como se mencionó anteriormente, los motores de búsqueda buscan contenido que coincida con las necesidades de información del usuario. Las necesidades de información provienen de la entrada del usuario. El motor de búsqueda utiliza los caracteres de búsqueda ingresados ​​por el usuario para realizar algún procesamiento similar al texto al crear un índice y luego genera un árbol de análisis. En resumen, el objetivo final de los consejos anteriores es ayudar a los motores de búsqueda a comprender mejor las necesidades de información de los usuarios para encontrar documentos de mayor calidad.

4. Organización

Los usuarios pueden ver contenido relevante ingresando palabras clave. En este momento, se mostrará uno por uno quién ocupa el primer lugar y quién ocupa el segundo lugar. A este ranking de resultados lo llamamos ranking.

La clasificación será muy complicada. El sistema realizará una serie de análisis complejos y, en función de las conclusiones del análisis, encontrará una serie de páginas web que mejor se ajusten a ella en la base de datos del índice. la intensidad de la demanda reflejada en las palabras clave introducidas por el usuario y los pros y los contras de las páginas web se puntúan y clasifican según la puntuación final.