¿Cuál es la URL del motor de búsqueda de texto completo?
1. Clasificación de los motores de búsqueda
Podemos llamarlo motor de búsqueda, que puede obtener información sobre las páginas de un sitio web, crear una base de datos y realizar consultas. Dependiendo de cómo funcionan, se pueden dividir en dos categorías básicas: motores de búsqueda de texto completo y directorios clasificados.
La base de datos del buscador de texto completo está formada por un software llamado "spider" o "crawler", que obtiene automáticamente una gran cantidad de información de páginas web a través de diversos enlaces en Internet y realiza búsquedas. según ciertas reglas. Análisis y organización. Google y Baidu son sistemas típicos de motores de búsqueda de texto completo.
Los directorios categorizados forman bases de datos recopilando y organizando manualmente datos de sitios web, como los directorios clasificados de Yahoo de China y los directorios nacionales de Sohu, Sina y NetEase. Además, algunos sitios web de navegación en Internet también pueden clasificarse como originales, como por ejemplo "Website Home".
Los motores de búsqueda de texto completo y los directorios de clasificados tienen sus propias ventajas y desventajas. Los motores de búsqueda de texto completo dependen del software, por lo que la capacidad de la base de datos es grande, pero los resultados de sus consultas a menudo no son lo suficientemente precisos. Los directorios clasificados dependen de la recopilación y organización manual de sitios web, lo que puede proporcionar resultados de consulta más precisos, pero el contenido recopilado sí; muy limitado. Para aprender de los puntos fuertes de cada uno, muchos motores de búsqueda ofrecen ahora ambos tipos de consultas. Generalmente, las consultas en motores de búsqueda de texto completo se denominan "todos los sitios" o "todos los sitios", como la búsqueda de texto completo de Google (.search.yahoo.com/dirsrch/).
En Internet, la integración de estos dos tipos de motores de búsqueda también ha dado lugar a otros servicios de búsqueda. Aquí también podemos llamarlo buscador, que incluye principalmente estos dos tipos:
1. Este tipo de motor de búsqueda generalmente no tiene sus propios robots de red ni bases de datos. Llama, controla y optimiza los resultados de búsqueda de otros motores de búsqueda independientes y muestra sus resultados de búsqueda en un formato unificado en la misma interfaz. Aunque los motores de metabúsqueda no tienen "robots web" ni "arañas web", ni bases de datos de índice independientes, sí tienen su propia tecnología de metabúsqueda única en términos de envío de solicitudes de búsqueda, proxy de interfaz de búsqueda y visualización de resultados de búsqueda. Por ejemplo, "Yuanyu Yuan Search Engine"
(/fish/) llama e integra datos de muchos motores de búsqueda como Google, Yahoo, AlltheWeb, Baidu, OpenFind, etc.
Buscador integrado (página de búsqueda integrada). Los motores de búsqueda integrados vinculan muchos motores de búsqueda independientes en una página web a través de tecnología de red. Al realizar una consulta, haga clic o especifique un motor de búsqueda, ingréselo a la vez y varios motores de búsqueda podrán realizar consultas al mismo tiempo. Los resultados de la búsqueda se muestran en páginas diferentes de cada motor de búsqueda, como la "navaja suiza de Internet" (/7Efree/search1.htm).
2. Cómo funciona el motor de búsqueda
El "robot web" o "araña web" del motor de búsqueda de texto completo es una especie de software en Internet. Atraviesa el espacio web, puede escanear sitios web dentro de un determinado rango de direcciones IP y recopila información web a lo largo de los enlaces de la red de una página web a otra. Para garantizar que se recopile la información más actualizada, también visita las páginas web rastreadas. Las páginas web recopiladas por robots web o arañas deben analizarse a través de otros programas, se realizan una gran cantidad de cálculos de acuerdo con ciertos algoritmos de correlación y se establecen índices de páginas web antes de que puedan agregarse a la base de datos de índices. El motor de búsqueda de texto completo que solemos ver es en realidad solo una interfaz de búsqueda para un sistema de motor de búsqueda. Cuando ingresa una palabra clave para consultar, el motor de búsqueda encontrará el índice de todas las páginas web relacionadas que coincidan con la palabra clave de la enorme base de datos y nos las presentará de acuerdo con ciertas reglas de clasificación. Diferentes motores de búsqueda, diferentes bases de datos de índices web y diferentes reglas de clasificación, por lo que cuando utilizamos diferentes motores de búsqueda para consultar con la misma palabra clave, los resultados de la búsqueda serán diferentes.
Al igual que el motor de búsqueda de texto completo, todo el proceso de trabajo del directorio clasificado también se divide en tres partes: recopilación de información, análisis de información y consulta de información, pero la recopilación y el análisis de información del directorio clasificado son realizado principalmente por humanos. Los directorios clasificados generalmente tienen editores dedicados responsables de recopilar información del sitio web. A medida que aumenta el número de sitios incluidos, generalmente el administrador del sitio envía la información de su sitio web al directorio de categorías y luego el editor del directorio de categorías revisa el sitio web enviado y decide si incluye el sitio. Si se aprueba el sitio web, el editor del directorio de categorías también debe analizar el contenido del sitio web y colocarlo en las categorías y directorios apropiados. Todos estos sitios web incluidos también se almacenan en una "base de datos de índice". Cuando los usuarios consultan información, pueden optar por buscar por palabras clave o pueden optar por buscar capa por capa por directorio de categorías. Si busca por palabra clave, los resultados arrojados son los mismos que los del motor de búsqueda de texto completo, y los sitios web también están ordenados según la relevancia de la información. Cabe señalar que la consulta de palabras clave en el directorio de categorías solo se puede realizar en el nombre del sitio web, la URL, la introducción y otros contenidos. El resultado de la consulta es solo la dirección URL de la página de inicio del sitio web incluido, no la página específica. Los directorios clasificados son como guías telefónicas. Los sitios se agrupan según la naturaleza de cada sitio. Hay subcategorías debajo de las categorías y siempre se proporciona la dirección detallada de cada sitio web. Los usuarios también pueden realizar consultas sin utilizar palabras clave. Siempre que encuentren directorios relevantes, podrán encontrar sitios web relevantes (nota: son sitios web relacionados, no el contenido de una determinada página de este sitio web. La clasificación de los sitios web en un directorio es promedio.
Buscar Los motores en realidad no buscan en Internet. En realidad, buscan en una base de datos de índice web preestablecida.
Un motor de búsqueda real generalmente se refiere a recopilar decenas de millones a miles de millones de páginas web en Internet y buscar cada palabra. (palabra clave) en la página web. ) para indexar y crear un motor de búsqueda de texto completo para la base de datos de índice. Cuando un usuario busca una determinada palabra clave, todas las páginas web que contengan la palabra clave en el contenido de la página se buscarán como resultados de búsqueda. y estos resultados se ordenarán según un complejo algoritmo clasificados en orden de relevancia para las palabras clave de búsqueda.
Ahora los motores de búsqueda han utilizado ampliamente la tecnología de análisis de hipervínculos para analizar no sólo el contenido de la página web indexada, sino también el contenido de la página web indexada. pero también la URL y el texto de anclaje que rodean los enlaces que apuntan a la página web. Entonces, a veces, incluso si no hay una palabra como "Satanás" en una determinada página web A, si otra página web B apunta a esta página web. A con un enlace de "Satanás", el usuario aún puede encontrar la página web cuando busca "Satanás" A. Además, si más páginas web (C, D, E, F...) apuntan a esta página web A con un enlace llamado "Satanás", o la página web de origen (B, C, D, E, F...) ofrece mejores enlaces, entonces, cuando un usuario busque "Satanás", la página web A se considerará más relevante y clasificado más alto
El principio de los motores de búsqueda se puede ver en tres pasos: rastrear desde la página web → Crear una base de datos de índice → Buscar y ordenar en la base de datos de índice
Rastrear la web. páginas de Internet
Utilice un programa de sistema araña que pueda recopilar automáticamente páginas web de Internet, acceder automáticamente a Internet y procesarlas a lo largo de Internet, rastreando todas las URL de cualquier página web hacia otras páginas web. repitiendo este proceso, recopilando todas las páginas web rastreadas
Crea una base de datos de índice
Recopila los datos analizando el programa del sistema de indexación. Se analiza la página web y la información relevante de la página web. (incluida la URL de la página web, el tipo de codificación, las palabras clave contenidas en el contenido de la página, la ubicación de las palabras clave, el tiempo de generación, el tamaño, la relación del enlace con otras páginas web, etc.) se extrae de acuerdo con una cierta correlación. una serie de cálculos complejos para determinar la relevancia (o importancia) de cada página web para cada palabra clave en el contenido de la página y los hipervínculos, y luego utiliza esta información relevante para construir una base de datos de índice de páginas web. clasificación en la base de datos
Cuando el usuario ingresa una búsqueda de palabras clave, el programa del sistema de búsqueda encuentra todas las páginas web relacionadas que coinciden con la palabra clave de la base de datos del índice web porque la relevancia de todas las páginas web relacionadas para esta palabra clave es la Lo mismo ya se ha calculado, solo necesitamos ordenar según el valor de correlación ya preparado. Cuanto mayor sea la correlación, mayor será la clasificación.
Finalmente, el sistema de generación de páginas organiza las direcciones de los enlaces y los resúmenes del contenido de las páginas de los resultados de búsqueda y los devuelve al usuario.
La araña de un buscador suele revisar todas las páginas web periódicamente (el ciclo de cada buscador es diferente, puede ser de días, semanas o meses, y también puede ser diferente para páginas web de diferente importancia. Diferente frecuencias de actualización), actualizar la base de datos del índice de páginas web para reflejar las actualizaciones del contenido de la página web, agregar nueva información de la página web, eliminar enlaces inactivos y reordenar de acuerdo con los cambios en el contenido de la página web y las relaciones de los enlaces. De esta forma, el contenido específico y los cambios de la página web se reflejarán en los resultados de la consulta del usuario.
Aunque sólo existe una Internet, cada motor de búsqueda tiene diferentes capacidades y preferencias, rastrea diferentes páginas y utiliza diferentes algoritmos de clasificación. Las bases de datos de los grandes motores de búsqueda almacenan índices de cientos de millones a miles de millones de páginas web en Internet, con volúmenes de datos que alcanzan miles o incluso decenas de miles de gigabytes. Sin embargo, incluso si el motor de búsqueda más grande ha establecido una base de datos indexada de más de 2 mil millones de páginas web, solo puede representar menos del 30% de las páginas web comunes en Internet. La tasa de superposición de datos de páginas web entre diferentes motores de búsqueda es generalmente menor. del 70%. La razón importante por la que utilizamos diferentes motores de búsqueda es que pueden buscar contenido diferente por separado. Además, hay más contenido en Internet que los motores de búsqueda no pueden rastrear ni indexar, y que no podemos encontrar mediante los motores de búsqueda.
Debes recordar este concepto: los motores de búsqueda sólo pueden buscar contenido almacenado en su base de datos de índice web. También deberías tener este concepto: si hay uno en la base de datos del índice del motor de búsqueda pero no puedes encontrarlo, es un problema con tu capacidad. Aprender técnicas de búsqueda puede mejorar enormemente sus habilidades de búsqueda.