¿Qué es un motor de búsqueda y cómo funciona?
Hay decenas de miles de millones de páginas web públicas en Internet. Incluso el navegante más ávido no visitará todas las páginas, solo verá una pequeña parte de ellas y no encontrará su maravilloso pero pequeño rincón en este vasto océano de Internet. Claro, puedes anunciar tu presencia, grabar tu URL en tu cuerpo con letras grandes y caminar desnudo por el césped de la Casa Blanca, pero debes asegurarte de que los medios estén ahí y mirando. En lugar de hacer eso, es mejor entender cómo funcionan los motores de búsqueda. Cómo elegir y utilizar "palabras clave" (keywords), etc.
El propósito de este artículo es permitir que muchos diseñadores de páginas descubran cómo lograr que sus páginas estén bien clasificadas en las listas devueltas por los motores de búsqueda según su conocimiento de los motores de búsqueda.
El término "motor de búsqueda" generalmente se refiere a motores de búsqueda reales (es decir, motores de búsqueda de texto completo) y directorios (es decir, motores de búsqueda de clasificación basados en directorios). De hecho, son diferentes. La principal diferencia radica en cómo está organizada la lista de resultados de búsqueda.
1. Directorios
Las listas devueltas por directorios (como Yahoo!) se organizan manualmente.
Este tipo de motor proporciona un directorio manual de sitios web organizado por categoría. En cada categoría, se organizan los nombres de los sitios y los enlaces URL de los sitios web que pertenecen a esta categoría y luego registra información resumida para proporcionar una descripción general. Introducción del sitio web (el resumen puede ser algo que usted envió en el pasado, o puede ser una evaluación de su sitio realizada por el editor del sitio del motor). Cuando las personas buscan, lo hacen según las categorías correspondientes al directorio.
Este tipo de motor suele ir acompañado de una función de consulta de sitios web, también llamada búsqueda de sitios web, que proporciona un cuadro de entrada de texto y un botón. Podemos ingresar las palabras, palabras o frases que queremos buscar en el cuadro de texto y luego hacer clic en el botón para buscar los nombres de sitios relevantes, las URL y los resúmenes de contenido en el directorio, y enviar la lista de contenido encontrado. Actualmente nacional Sohoo, Ivy, etc. Todos utilizan este método de búsqueda.
2. Motor de búsqueda
Los motores de búsqueda (como HotBot) crearán listas automáticamente.
El motor de búsqueda se parece mucho a un directorio de consulta de un sitio web. También proporciona un cuadro de entrada de texto y un botón. Algunos también proporcionan directorios clasificados, pero son esencialmente diferentes.
En la base de datos del directorio, el nombre del sitio web, la URL y el resumen de contenido de cada sitio web se recopilan y guardan en la base de datos del motor de búsqueda, se recopila y almacena todo el contenido de cada página de cada sitio web; guardado, y el alcance mucho mayor.
Los motores de búsqueda funcionan en forma de recuperación de texto completo. Los resultados de la búsqueda de texto completo no son el nombre del sitio web, la URL y el resumen de contenido, sino la dirección de la página web y párrafos breves relacionados con las palabras clave que ingresó. En este texto, puede que no estén las palabras clave que ingresó. Es solo el primer párrafo de una página web, o incluso una etiqueta incomprensible, pero esta página web debe tener las palabras clave o el vocabulario relacionado que ingresó. Por ejemplo, una consulta en un sitio web puede encontrar qué periódicos están disponibles en Internet, como "Wenhui Po" y "Ta Kung Pao", y una búsqueda de texto completo puede encontrar el vocabulario de cada artículo de estos periódicos en Internet.
3. Un motor de búsqueda que combine los dos.
Algunos motores de búsqueda también proporcionan directorios. Los directorios incluidos en los motores de búsqueda suelen ser de gran calidad y en ellos se pueden encontrar muchos buenos sitios web. Porque incluso si ha enviado su sitio en el pasado, no hay garantía de que se agregue al directorio. Se centran en sitios que ya existen en otros directorios y encuentran selectivamente sitios atractivos para agregar a sus propios directorios.
Los motores de búsqueda y los directorios tienen sus propias funciones irremplazables. La tabla de contenidos es relativamente simple. Si desea obtener un buen nivel de edición, no hay otra manera que crear un sitio de alta calidad con buen contenido. Los motores de búsqueda son mucho más complejos. Indexan automáticamente las páginas más recientes de muchos sitios web en cualquier momento, por lo que a menudo encuentran información que no está disponible en los directorios. Si cambia su página, los motores de búsqueda siempre notarán el cambio y reorganizarán su posición en la lista. El catálogo no puede hacer eso. Lo siguiente está dedicado a explicar cómo funcionan los motores de búsqueda y cómo mejorar su posición en los listados de los motores de búsqueda.
Materiales de referencia:
/CPC/build web/search 101. htm
Según los diferentes métodos de recopilación de información y prestación de servicios, los sistemas de motores de búsqueda pueden ser dividido en Tres categorías:
1. Motor de búsqueda de directorio: recopila información de forma manual o semiautomática. Después de que el editor lee la información, la resume manualmente y la coloca en un marco de clasificación predeterminado. La mayor parte de la información está orientada a sitios web y proporciona servicios de exploración de directorios y servicios de recuperación directa. Este tipo de motor de búsqueda tiene la ventaja de ofrecer información precisa y una navegación de alta calidad gracias a la inteligencia humana. Las desventajas son que se requiere intervención manual, la cantidad de mantenimiento es grande, la cantidad de información es pequeña y la información no se actualiza de manera oportuna. Los representantes de este tipo de motores de búsqueda incluyen: Yahoo, LookSmart, Open Directory, Go Guide, etc.
2. Motor de búsqueda de robot (motor de búsqueda de robot): un programa de robot llamado Spider recopila y descubre automáticamente información en Internet de acuerdo con ciertas estrategias. El indexador indexa la información recopilada y el recuperador busca en la base de datos de índice. en la entrada de la consulta del usuario y devolver los resultados de la consulta al usuario.
El modelo de servicio es el servicio de recuperación de texto completo de páginas web. La ventaja de este tipo de motor de búsqueda es que tiene una gran cantidad de información, se actualiza oportunamente y no requiere intervención manual. La desventaja es que se devuelve demasiada información, hay mucha información irrelevante y el usuario debe examinar los resultados. Los representantes de este tipo de motores de búsqueda incluyen: AltaVista, Northern Lights, Excite, Infoseek, Inktomi, FAST, Lycos y los representantes nacionales de Google incluyen: "Skynet", Youyou, OpenFind, etc.
3. Metabuscador: este tipo de motor de búsqueda no tiene sus propios datos, sino que envía solicitudes de consulta de los usuarios a varios motores de búsqueda al mismo tiempo. Los resultados se utilizan como Devuelve sus propios resultados. El modelo de servicio es la recuperación de texto completo orientado a la web. La ventaja de este tipo de motor de búsqueda es que devuelve información más completa, pero la desventaja es que no puede utilizar plenamente las funciones del motor de búsqueda utilizado y los usuarios deben realizar más filtrado. Los representantes de este tipo de motores de búsqueda incluyen rastreadores web, mercados de información, etc.
......
Habilidades principales
El motor de búsqueda consta de cuatro partes: buscador, indexador, recuperador e interfaz de usuario.
1. Inspector
La función del buscador es recorrer Internet, buscar y recopilar información. Suele ser un programa informático que funciona las 24 horas del día. Debería recopilar tanta información nueva como sea posible y lo más rápido posible. Al mismo tiempo, debido a que la información en línea se actualiza rápidamente, la información antigua que se ha recopilado debe actualizarse periódicamente para evitar conexiones inactivas y conexiones no válidas. Actualmente, existen dos estrategias para recopilar información:
● A partir de un conjunto inicial de URL y siguiendo los hipervínculos de estas URL, se puede recorrer Internet en sentido amplio, primero en profundidad o primero en profundidad. manera heurística Búsqueda de información. Estas URL de inicio pueden ser cualquier URL, pero suelen ser sitios web muy populares con muchos enlaces (como Yahoo!).
●Divida el espacio web por nombre de dominio, dirección IP o nombre de dominio de país, y cada buscador es responsable de una búsqueda exhaustiva de un subespacio.
Los buscadores recopilan varios tipos de información, incluidos HTML, XML, artículos de grupos de noticias, archivos FTP, documentos de procesamiento de textos e información multimedia.
Los buscadores suelen implementarse mediante tecnologías informáticas distribuidas y paralelas para aumentar la velocidad de descubrimiento y actualización de la información. La cantidad de información descubierta por los motores de búsqueda comerciales llega a millones de páginas web cada día.
2. Indexador
La función del indexador es comprender la información buscada por el buscador, extraer elementos del índice, utilizarlos para representar el documento y generar la tabla de índice. de la biblioteca de documentos.
Hay dos tipos de elementos de índice: los elementos objetivos no tienen nada que ver con el contenido semántico del documento, como el nombre del autor, la URL, la hora de actualización, el código, la longitud, la popularidad del enlace, etc. Los elementos del índice de contenido se utilizan para reflejar el contenido del documento, como palabras clave y sus pesos, frases, palabras, etc. Los elementos del índice de contenido se pueden dividir en elementos de índice únicos y elementos de índice múltiples (o elementos de índice de frases). Los elementos de índice único son palabras en inglés en inglés, que son más fáciles de extraer porque hay separadores naturales (espacios) entre palabras. Para idiomas de escritura continua como el chino, es necesaria la segmentación de palabras;
En los motores de búsqueda, normalmente es necesario asignar un peso a un único elemento del índice para indicar el grado en que el elemento del índice distingue el documento y calcular la relevancia de los resultados de la consulta. Los métodos utilizados generalmente incluyen estadística, teoría de la información y teoría de la probabilidad. Los métodos para extraer elementos del índice de frases incluyen estadística, teoría de probabilidad y lingüística.
La tabla de índice generalmente utiliza alguna forma de tabla invertida, es decir, el documento correspondiente se busca según el elemento del índice. Las tablas de índice también pueden registrar en qué parte de un documento aparece un término de índice, lo que permite a los buscadores calcular la proximidad entre los términos de índice.
Los indexadores pueden utilizar algoritmos de indexación centralizados o algoritmos de indexación distribuidos. Cuando la cantidad de datos es grande, es necesario implementar la indexación en tiempo real; de lo contrario, no podrá mantenerse al día con el rápido aumento en la cantidad de información. El algoritmo de indexación tiene un gran impacto en el rendimiento del indexador, como la velocidad de respuesta de consultas máximas a gran escala. La eficacia de un motor de búsqueda depende en gran medida de la calidad de su indexación.
3. Personas recuperadas
La función del recuperador es verificar rápidamente los documentos en la base de datos del índice en función de la consulta del usuario, evaluar la relevancia del documento y la consulta, y Evaluar los resultados. Ordenar la salida e implementar algún tipo de mecanismo de retroalimentación de relevancia para el usuario.
Existen cuatro modelos de recuperación de información comúnmente utilizados por los buscadores: modelo de teoría de conjuntos, modelo algebraico, modelo de probabilidad y modelo híbrido.
4. Interfaz de usuario
La función de la interfaz de usuario es ingresar consultas de los usuarios, mostrar los resultados de las consultas y proporcionar mecanismos de retroalimentación relacionados con los usuarios. El objetivo principal es facilitar a los usuarios el uso de los motores de búsqueda y la obtención de información efectiva y oportuna de los motores de búsqueda de manera eficiente y a través de múltiples canales. El diseño y la implementación de la interfaz de usuario adoptan las teorías y métodos de interacción persona-computadora y se adaptan completamente a los hábitos de pensamiento humanos. Las interfaces de entrada del usuario se pueden dividir en interfaces simples e interfaces complejas.
La interfaz simple solo proporciona un cuadro de texto para que los usuarios ingresen cadenas de consulta; la interfaz compleja permite a los usuarios limitar las consultas, como operaciones lógicas (Y, O, NO+, -), proximidad (adyacente, cercana). ), rango de nombre de dominio (como .edu.com), ubicación (como título, contenido), tiempo de información, extensión, etc. Actualmente, algunas empresas e instituciones están considerando desarrollar estándares para las opciones de consulta.