¿En cuál de los siguientes pasos funciona un motor de búsqueda?
1. Grab
Los motores de búsqueda no pueden rastrear manualmente las páginas de los sitios web de Internet, por lo que los ingenieros de Baidu y Google escribieron un programa. Llamaron a esta araña rastreadora automática (también conocida como "robot" o "rastreador web").
La información en Internet se almacena en innumerables servidores. Cualquier motor de búsqueda que quiera responder a la búsqueda de un usuario debe primero almacenar páginas web en su propio servidor local, que depende de rastreadores web. Envía continuamente solicitudes a varios sitios web y almacena las páginas web obtenidas.
El enfoque habitual es utilizar los enlaces entre páginas web, comenzando desde una página web, extrayendo enlaces a otras páginas web, tratándolos como objetos para la siguiente solicitud y repitiendo el proceso. Hay muchos detalles a considerar. Por ejemplo, evite páginas web con enlaces circulares; analice documentos web y extraiga enlaces en ellos; maneje los errores cuando los enlaces no se puedan abrir, etc.
2. Índice
El índice sirve para ayudar al programa a buscar rápidamente. Todo el mundo ha utilizado un diccionario inglés-chino. La parte al principio del diccionario ordenada por las primeras letras de las palabras es el índice. Lo mismo ocurre con los motores de búsqueda. Aquí presentaremos la primera y más importante estructura de datos: la lista invertida.
El buscador dispone de una lista invertida por cada palabra que aparece en el documento. Registra en cuántos documentos aparece la palabra, qué documentos es, cuántas veces aparece en cada sección del documento y dónde aparece. De esta forma, cuando Google busca palabras relacionadas, no necesita revisar todos los documentos, sólo necesita encontrar la lista invertida correspondiente a cada palabra para saber dónde aparece.
Cada documento web contiene algo más que información textual. También puede incluir nombres de archivos, referencias, etc. Para mejorar la calidad de la búsqueda, los motores de búsqueda deben procesar diferentes partes del documento por separado y crear una lista de inversión. Cada parte de la palabra se agrega a la lista invertida de esa parte.
3. Buscar
Con el índice podrás encontrar rápidamente lo que necesitas. Como se mencionó anteriormente, los motores de búsqueda buscan contenido que coincida con las necesidades de información del usuario. Las necesidades de información provienen de la entrada del usuario. El motor de búsqueda utiliza los caracteres de búsqueda ingresados por el usuario para realizar un procesamiento similar al texto al crear un índice y luego genera un árbol de análisis. En resumen, el objetivo final de los consejos anteriores es ayudar a los motores de búsqueda a comprender mejor las necesidades de información de los usuarios para encontrar documentos de mayor calidad.
4. Organización
Los usuarios pueden ver contenido relacionado ingresando palabras clave. En este momento, se mostrará uno por uno quién ocupa el primer lugar y quién ocupa el segundo lugar. A este ranking lo llamamos ranking de resultados.
La clasificación será muy complicada. El sistema realizará una serie de análisis complejos y, en función de las conclusiones del análisis, encontrará una serie de páginas web que mejor se ajusten a él en la base de datos del índice. la intensidad de la demanda se refleja en las palabras clave introducidas por el usuario. Las páginas web se clasifican según sus méritos y se clasifican según la puntuación final.