Cómo funciona el motor de búsqueda de bonificación
En los últimos años, la comercialización de motores de búsqueda ha logrado un gran éxito. La exitosa inclusión de empresas de motores de búsqueda famosas como Google, Yahoo (en inglés Yahoo en este artículo), Baidu, etc. involucrarse en este campo, y generó una gran cantidad de inversión humana y de capital. Incluso el gigante del software Microsoft no pudo resistir la tentación y construyó activamente su propio motor de búsqueda. Sin embargo, en términos de rendimiento, los motores de búsqueda actuales no son satisfactorios. Los resultados arrojados por la búsqueda a menudo están lejos de los requisitos de recuperación del usuario y la efectividad no es muy alta. Este artículo analizará el principio de funcionamiento de los motores de búsqueda y sus tecnologías de implementación, para comprender qué factores limitan la mejora de la experiencia del usuario de los motores de búsqueda.
El proceso de trabajo de los motores de búsqueda
Los centros de datos de los grandes motores de búsqueda de Internet generalmente ejecutan miles o incluso cientos de miles de computadoras, y docenas de máquinas se unen al grupo de computadoras todos los días para Manténgase al día con el desarrollo de Internet. La máquina de recopilación recopila automáticamente información web a una velocidad promedio de docenas de páginas web por segundo, mientras que la máquina de recuperación proporciona una arquitectura escalable tolerante a fallas y maneja decenas o incluso cientos de millones de solicitudes de consultas de usuarios todos los días. Los motores de búsqueda empresariales se pueden implementar desde una sola computadora a un grupo de computadoras según diferentes escalas de aplicación.
El flujo de trabajo general de un motor de búsqueda es:? Primero, recopile páginas web en Internet y luego preprocese las páginas web recopiladas para establecer una base de datos de índice de páginas web, que puede responder a las solicitudes de consulta de los usuarios en tiempo real, ordenar los resultados encontrados de acuerdo con ciertas reglas y devolverlos al usuario. . La función importante de un motor de búsqueda es proporcionar recuperación de texto completo de información textual en Internet.
¿Figura 1? Flujo de trabajo del motor de búsqueda
El motor de búsqueda recibe la solicitud de recuperación del usuario a través del programa cliente. El programa cliente más común hoy en día es un navegador, pero en realidad puede ser una aplicación web mucho más simple desarrollada por el usuario. La solicitud de búsqueda ingresada por el usuario generalmente es una palabra clave o varias palabras clave conectadas por símbolos lógicos. El servidor de búsqueda convierte las palabras clave de búsqueda en ID de palabras de acuerdo con el diccionario de palabras clave del sistema, luego obtiene una lista de ID de documentos en la biblioteca de índice (archivo invertido), escanea los objetos en la lista de ID de documentos y los relaciona con los ID de palabras y extrae páginas web. que cumplen las condiciones, luego calcula la correlación entre la página web y las palabras clave, y devuelve los k resultados principales (diferentes motores de búsqueda tienen diferentes números de resultados de búsqueda por página).
La Figura 2 describe la arquitectura del sistema de un motor de búsqueda general, incluido el recopilador de páginas, el indexador, el recuperador, el archivo de índice, etc. A continuación se presenta la implementación funcional de las partes principales.
¿Imagen 2? La relación entre los componentes del buscador
Coleccionista
La función del recopilador es recorrer Internet, descubrir y recopilar información. Recopila varios tipos de información, incluidas páginas HTML, documentos XML, artículos de grupos de noticias, archivos FTP, documentos de procesamiento de textos, información multimedia y más. Un buscador es un programa informático cuya implementación a menudo utiliza tecnología de procesamiento distribuido y paralelo para mejorar la eficiencia del descubrimiento y actualización de la información. Los recopiladores de motores de búsqueda comerciales pueden recopilar millones o más de páginas web cada día. En general, los buscadores deben seguir funcionando y obtener la mayor cantidad y rapidez posible de todo tipo de información nueva en Internet. Debido a que la información en Internet se actualiza rápidamente, la información antigua recopilada debe actualizarse periódicamente para evitar enlaces inactivos y enlaces no válidos. Además, debido a que la información web es dinámica, los recopiladores, analizadores e indexadores deben actualizar la base de datos periódicamente, y el ciclo de actualización suele ser de semanas o incluso meses. Cuanto más grande sea la base de datos del índice, más difícil será actualizarla.
Hay tanta información en Internet que ni siquiera un coleccionista poderoso puede recopilar toda la información que hay en Internet. Por tanto, el recopilador utiliza determinadas estrategias de búsqueda para navegar por Internet y descargar documentos. Por ejemplo, generalmente se utiliza una estrategia de búsqueda en amplitud, complementada con una estrategia de búsqueda lineal.
Cuando se implementa el recopilador, se mantiene una cola o pila de hipervínculos en el sistema, que contiene algunas URL iniciales.
El recopilador descarga las páginas correspondientes de estas URL y extrae nuevos hipervínculos de ellas para agregarlos a la cola o pila. El proceso anterior se repite para la cola hasta que la pila esté vacía. Para mejorar la eficiencia, los motores de búsqueda dividen el espacio web según nombres de dominio, direcciones IP o nombres de dominio de países, y utilizan varios recopiladores para trabajar en paralelo, de modo que cada buscador es responsable de buscar en un subespacio. Para ampliar el servicio en el futuro, el recopilador debería poder cambiar el alcance de la búsqueda.
1. Estrategia de recopilación lineal
La idea básica de la estrategia de búsqueda lineal es comenzar desde una dirección IP inicial y buscar información en cada dirección IP posterior de forma incremental. , independientemente de Las direcciones de hipervínculo en el archivo HTML de cada sitio que apuntan a otros sitios. Esta estrategia no es adecuada para búsquedas a gran escala (principalmente porque la IP puede ser dinámica), pero puede usarse para búsquedas integrales a pequeña escala. Los recopiladores que utilizan esta estrategia pueden encontrar nuevas fuentes de información sobre archivos HTML a las que otros archivos HTML rara vez o nada hacen referencia.
2.? Estrategia de recolección primero en profundidad
La estrategia de recolección primero en profundidad es un método ampliamente utilizado en el desarrollo temprano de los recolectores, y su propósito es llegar a los nodos de las hojas de la estructura que se está buscando. La búsqueda en profundidad sigue los hipervínculos en el archivo HTML hasta que no puede ir más lejos, luego regresa al archivo HTML del contacto anterior y procede a seleccionar otros hipervínculos en el archivo HTML. La búsqueda finaliza cuando no hay otros hipervínculos para elegir. La búsqueda en profundidad es adecuada para recorrer un sitio específico o un conjunto de archivos HTML profundamente anidados, pero para búsquedas a gran escala, es posible que nunca aparezca debido a la estructura profunda de la Web.
3.? Estrategia de recopilación primero en amplitud
La estrategia de recopilación primero en amplitud es buscar primero el contenido de la misma capa y luego continuar buscando en la siguiente capa. Si hay tres hipervínculos en un archivo HTML, seleccione uno de ellos y procese el archivo HTML correspondiente, luego regrese para seleccionar el segundo hipervínculo de la primera página web, procese el archivo HTML correspondiente y luego regrese. Una vez que haya procesado todos los hipervínculos en la misma capa, puede comenzar a buscar los hipervínculos restantes en el archivo HTML que acaba de procesar. Esto garantiza que las capas poco profundas se traten primero y, cuando se encuentren con infinitas ramas profundas, no se atascarán nuevamente. La estrategia de recopilación primero en amplitud es fácil de implementar y ampliamente utilizada, pero lleva mucho tiempo llegar a archivos HTML profundos.
4.? Estrategia de recopilación
Algunas páginas web se pueden recopilar mediante el envío del usuario. Por ejemplo, algunos sitios web comerciales envían solicitudes de inclusión a los motores de búsqueda, y los recopiladores pueden recopilar la información de la página web del sitio web que envió la solicitud y agregarla a la base de datos de índice del motor de búsqueda.
Analista
En términos generales, la información de la página web o los documentos descargados recopilados por el recopilador deben analizarse primero para crear un índice. Las técnicas de análisis de documentos suelen incluir: Segmentación de palabras (algunos solo extraen palabras de ciertas partes del documento, como Altavista), filtrado (usando tablas de palabras no indexadas), conversión (algunos realizan conversión de singular y plural, eliminación de afijos, conversión de sinónimos, etc.). ), que a menudo está estrechamente relacionado con el lenguaje específico y el modelo de indexación del sistema.
Indexador
La función del indexador es analizar y procesar la información recuperada por el buscador, extraer elementos del índice, utilizarlos para representar documentos y generar una tabla de índice para la biblioteca de documentos. Hay dos tipos de elementos de índice: elementos de índice de metadatos y elementos de índice de contenido. Los elementos del índice de metadatos no tienen nada que ver con el contenido semántico del documento, como el nombre del autor, la URL, la hora de actualización, el código, la longitud, la popularidad del enlace, etc. ? Los elementos del índice de contenido se utilizan para reflejar el contenido del documento, como palabras clave y sus pesos, frases, palabras, etc. Los elementos del índice de contenido se pueden dividir en elementos de índice únicos y elementos de índice múltiples (o elementos de índice de frases). Los elementos de índice único son palabras en inglés en inglés, que son más fáciles de extraer porque hay separadores naturales (espacios) entre las palabras; Para idiomas de escritura continua como el chino, la segmentación de palabras es necesaria. En los motores de búsqueda, generalmente es necesario asignar un peso a un único elemento del índice para indicar en qué medida el elemento del índice distingue los documentos y calcular la relevancia de los resultados de la consulta. Los métodos utilizados generalmente incluyen estadística, teoría de la información y teoría de la probabilidad. Los métodos para extraer elementos del índice de frases incluyen estadística, teoría de probabilidad y lingüística.
Para encontrar rápidamente información específica, crear una base de datos de índice es un método común, es decir, los documentos se representan de una manera que se pueda recuperar y almacenar fácilmente en una base de datos de índice. El formato de la base de datos de índice es un formato de almacenamiento de datos especial que se basa en el mecanismo y algoritmo de indexación. La calidad del índice es uno de los factores clave para el éxito del sistema de recuperación de información en red. Un buen modelo de índice debe ser fácil de implementar y mantener, rápido de recuperar y tener pocos requisitos de espacio. Los motores de búsqueda generalmente recurren a modelos de indexación en la recuperación de información tradicional, incluidos documentos invertidos, modelos de espacio vectorial, modelos de probabilidad, etc. Por ejemplo, en el modelo de índice de espacio vectorial, cada documento D se representa como un vector normalizado V(d)=(t1,w1?(d)…ti,w1(d)…tn,wn(d)). donde ti es el término de entrada, wi(d) es el peso de ti en D, que generalmente se define como una función de la frecuencia tfi(d) de ti que aparece en D.
La salida del indexador es una tabla de índice, generalmente en forma invertida (¿Inversión? Lista), es decir, los documentos correspondientes se buscan según los elementos del índice. Las tablas de índice también pueden registrar en qué parte de un documento aparece un término de índice para que los buscadores puedan calcular la proximidad entre los términos de índice. Los indexadores pueden utilizar algoritmos de indexación centralizados o algoritmos de indexación distribuidos. Cuando la cantidad de datos es grande, se requiere indexación en tiempo real (¿Indexación instantánea?); de lo contrario, no podrá mantenerse al día con el rápido aumento de información. El algoritmo de indexación tiene un gran impacto en el rendimiento del indexador, como la velocidad de respuesta de consultas máximas a gran escala. La eficacia de un motor de búsqueda depende en gran medida de la calidad de su indexación.
Recuperación
La función del recuperador es verificar rápidamente documentos en la base de datos de índice según la consulta del usuario, evaluar la relevancia del documento y la consulta, y ordenar los resultados. para la salida. e implementar algún tipo de mecanismo de retroalimentación de relevancia del usuario. Existen muchos modelos de recuperación de información comúnmente utilizados por los buscadores, como modelos de teoría de conjuntos, modelos algebraicos, modelos de probabilidad, modelos híbridos, etc., que pueden consultar cualquier palabra en la información del texto, ya sea que aparezca en el título o en el texto.
El recuperador encuentra documentos relacionados con la solicitud de consulta del usuario en el índice y procesa la solicitud de consulta del usuario entendiendo los documentos indexados. Por ejemplo, en el modelo de índice de espacio vectorial, la consulta del usuario Q se expresa primero como un vector normalizado V(q)=(t1, w 1(Q);?…;?ti,wi(q);?…;? Tn, wn (q)), y luego calcule la correlación entre la consulta del usuario y cada documento en la base de datos de índice de acuerdo con un método determinado. La correlación se puede expresar como el coseno del ángulo entre el vector de consulta V (q) y. el vector de documento V(d). Finalmente, todos los documentos con una relevancia superior al umbral se ordenan en orden de relevancia decreciente y se devuelven al usuario. Por supuesto, es posible que el juicio de relevancia del motor de búsqueda no satisfaga completamente las necesidades del usuario.
Interfaz de usuario
La función de la interfaz de usuario es proporcionar a los usuarios una interfaz visual para la entrada de consultas y la salida de resultados, para facilitar a los usuarios ingresar condiciones de consulta, mostrar resultados de consultas y Proporcionar a los usuarios mecanismos de retroalimentación relevantes. Su principal objetivo es facilitar a los usuarios el uso de los motores de búsqueda y la obtención de información eficaz de los mismos de forma eficiente y diversa. El diseño y la implementación de la interfaz de usuario deben basarse en las teorías y métodos de interacción persona-computadora para adaptarse al pensamiento y los hábitos de uso humanos.
En la interfaz de consulta, los usuarios formulan los términos a buscar y varias condiciones de búsqueda simples o avanzadas según la sintaxis de consulta del motor de búsqueda. La interfaz simple solo proporciona un cuadro de texto para que los usuarios ingresen cadenas de consulta, mientras que la interfaz compleja permite a los usuarios limitar las condiciones de consulta, como operaciones lógicas (Y, O, NO), proximidad (adyacente, cercana), rango de nombres de dominio (como como edu, com), posición de aparición (como título, contenido), información de tiempo, información de duración, etc. Actualmente, algunas empresas e instituciones están considerando desarrollar estándares para las opciones de consulta.
En la interfaz de salida de la consulta, el motor de búsqueda muestra los resultados de la búsqueda como una lista lineal de documentos, que incluye el título del documento, el resumen, la instantánea, el hipervínculo y otra información. Dado que los documentos relevantes e irrelevantes en los resultados de la búsqueda se mezclan entre sí, los usuarios deben navegar uno por uno para encontrar los documentos requeridos.
Tecnología de segmentación de palabras chinas para motores de búsqueda
La segmentación automática de palabras chinas es la base para el análisis de páginas web.
En el proceso de análisis de páginas web, el chino y el inglés se tratan de manera diferente porque existe una diferencia obvia entre la información china y la información en inglés: hay espacios entre las palabras en inglés, pero no hay separadores entre las palabras en el texto chino. Esto requiere que antes de analizar la página web china, las oraciones de la página web se corten en una secuencia de palabras. Esta es la segmentación de palabras chinas. La segmentación automática de palabras en chino implica muchas tecnologías de procesamiento del lenguaje natural y criterios de evaluación. En los motores de búsqueda, lo que más nos preocupa es la velocidad y precisión de la segmentación automática de palabras en chino. La precisión de la segmentación de palabras es muy importante para los motores de búsqueda, pero si la velocidad de segmentación de palabras es demasiado lenta, incluso si la precisión es alta, no estará disponible para los motores de búsqueda, porque los motores de búsqueda necesitan procesar cientos de millones de páginas web. Si el tiempo de segmentación de palabras es demasiado largo, afectará seriamente la velocidad de actualización del contenido de los motores de búsqueda. Por lo tanto, los motores de búsqueda exigen mucho en cuanto a precisión y velocidad de la segmentación de palabras.
La actual tecnología china madura de segmentación automática de palabras es un método mecánico de segmentación de palabras basado en diccionarios de segmentación de palabras. Este método consiste en hacer coincidir la cadena de caracteres chinos que se analizará con las entradas del diccionario de acuerdo con una estrategia determinada. Según las diferentes estrategias de coincidencia, existen varios algoritmos para la segmentación mecánica de palabras: Algoritmo de coincidencia máxima directa, algoritmo de coincidencia máxima inversa, algoritmo de segmentación mínima de palabras, etc. La ventaja de este método es que la velocidad de segmentación de palabras es rápida y la precisión está garantizada hasta cierto punto, pero el efecto de procesamiento de palabras no registradas es deficiente. Los resultados experimentales muestran que la tasa de error de la coincidencia máxima directa es de aproximadamente 1/169 y la tasa de error de la coincidencia máxima inversa es de aproximadamente 1/245. Otro método de segmentación automática de palabras chino comúnmente utilizado es el método de segmentación estadística de palabras. Este método cuenta la frecuencia de frases en el corpus sin segmentación de diccionario, por lo que también se denomina método de segmentación de palabras sin diccionario. Sin embargo, este método a menudo trata las palabras comunes que no son palabras como palabras. La precisión del reconocimiento de palabras comunes es pobre y la sobrecarga de tiempo y espacio es relativamente grande. En aplicaciones prácticas en el campo de los motores de búsqueda, los métodos mecánicos de segmentación de palabras generalmente se combinan con métodos estadísticos de segmentación de palabras. Primero realice la comparación de cadenas y la segmentación de palabras, y luego utilice métodos estadísticos para identificar algunas palabras nuevas no registradas. Esto no solo aprovecha la rápida velocidad y la alta eficiencia de la segmentación de palabras coincidentes, sino que también aprovecha el reconocimiento automático y la desambiguación automática de nuevas palabras en la segmentación estadística de palabras.
El diccionario de segmentación de palabras es un factor importante que afecta la segmentación automática de palabras chinas. Su tamaño suele rondar las 60.000 palabras y el diccionario no debe ser ni demasiado grande ni demasiado pequeño. ? Si el diccionario es demasiado pequeño, algunas palabras no se pueden segmentar. Si el diccionario es demasiado grande, aumentará en gran medida el fenómeno de levantamiento en el proceso de segmentación y también afectará la precisión de la segmentación de palabras. Por tanto, la selección de entradas en el diccionario de segmentación de palabras es muy estricta. Para el campo de Internet donde constantemente surgen nuevas palabras, no es suficiente usar un diccionario de segmentación de palabras de aproximadamente 60,000 palabras, pero agregar nuevas palabras al diccionario de segmentación de palabras a voluntad conducirá a una disminución en la precisión de la segmentación de palabras. La solución general es utilizar un diccionario auxiliar, con un tamaño de unas 500.000 palabras. Además, la dificultad de la segmentación automática de palabras chinas radica en el procesamiento de la ambigüedad de la segmentación de palabras y la identificación de palabras no registradas. Cómo abordar estas dos cuestiones ha sido un tema candente en el campo.
1.? Manejo de ambigüedad
Ambigüedad significa que puede haber dos o más métodos de segmentación. Por ejemplo:? La frase "superficial" se puede dividir en "superficial" y "superficial" porque "superficial" y "superficial" son ambas palabras. Esto se llama ambigüedad cruzada. Esta ambigüedad cruzada es muy común y "maquillaje y ropa" se puede dividir en "maquillaje y kimono" o "maquillaje y kimono y ropa". Como nadie tiene los conocimientos necesarios para comprenderlo, es difícil para una computadora saber cuál es la solución correcta.
La ambigüedad transversal es relativamente más fácil de manejar que la ambigüedad combinada, que debe juzgarse en función de la oración completa.
Por ejemplo, en la oración "Este pomo de la puerta está roto", "manija" es una palabra, pero en la oración "Por favor, retira la mano", "manija" no es una palabra; En la frase "El general nombró a un teniente general", "teniente general" es una palabra, pero en la frase "la producción se triplicará en tres años", "teniente general" ya no es una palabra. ¿Cómo reconoce una computadora estas palabras?
Aunque las computadoras pueden resolver el desenfoque cruzado y el desenfoque combinado, todavía existe un problema difícil con la borrosidad: el desenfoque verdadero. La verdadera ambigüedad es que cuando se les da una oración, la gente no sabe cuál se supone que es una palabra y cuál no. Por ejemplo:? "La subasta de tenis de mesa finaliza" se puede dividir en "transacción vendida de raqueta de tenis de mesa" o "transacción de subasta de tenis de mesa completada".
Sin otras oraciones en contexto, me temo que nadie sabría si "subasta" es una palabra aquí.
Los métodos para lidiar con la ambigüedad generalmente utilizan algoritmos similares a la programación dinámica para transformar la solución de la ambigüedad en la solución de un problema de optimización. En el proceso de solución, generalmente se utiliza información auxiliar como la frecuencia o probabilidad de las palabras para obtener el máximo resultado posible de segmentación de palabras, que es el mejor en cierto sentido.
2.? Procesamiento de textos no registrados
Las palabras no registradas son palabras que no se pueden encontrar en el diccionario de segmentación de palabras, también conocidas como palabras nuevas. Los más típicos incluyen nombres, topónimos, términos profesionales, etc. Por ejemplo, la gente puede entender fácilmente la frase "El rey fue a Guangzhou". "王" es una palabra porque es el nombre de una persona, pero a las computadoras les resulta difícil reconocerlo. Si se incluye "rey" como palabra en el diccionario, hay muchísimos nombres en todo el mundo y hay nombres nuevos todo el tiempo. Incluir estos nombres fue una tarea enorme. Incluso si este trabajo se puede completar, todavía habrá preguntas, como: en la oración "La cabeza de tigre y la cabeza de tigre de Wang Jun", ¿se puede seguir contando "rey" como una palabra?
Además de los nombres personales, también hay nombres de organizaciones, topónimos, nombres de productos, marcas, abreviaturas, elipses, etc. , son difíciles de procesar y son solo palabras que la gente usa con frecuencia, por lo que es muy importante que los motores de búsqueda identifiquen nuevas palabras en el sistema de segmentación de palabras. Actualmente, los métodos estadísticos se utilizan generalmente para procesar palabras no registradas. Primero, las frases con alta frecuencia de aparición se cuentan del corpus y luego se agregan al diccionario auxiliar como nuevas palabras de acuerdo con ciertas reglas.
En la actualidad, la tecnología china de segmentación automática de palabras se ha utilizado ampliamente en los motores de búsqueda y la precisión de la segmentación de palabras ha alcanzado más del 96%. Sin embargo, la tecnología china existente de segmentación automática de palabras todavía tiene muchas deficiencias al analizar y procesar páginas web a gran escala, como la ambigüedad mencionada anteriormente y el procesamiento de palabras no registradas. Por lo tanto, instituciones de investigación nacionales y extranjeras como la Universidad de Pekín, la Universidad de Tsinghua, la Academia de Ciencias de China, el Instituto de Idiomas de Beijing, la Universidad del Noreste, IBM Research y Microsoft China Research han estado prestando atención y estudiando la tecnología de segmentación automática de palabras china. Esto se debe principalmente a que cada vez hay más información china en Internet. El procesamiento de información china en Internet definitivamente se convertirá en una industria enorme y un mercado amplio con oportunidades comerciales ilimitadas. Sin embargo, la tecnología china de segmentación automática de palabras requiere mucho trabajo en investigación básica e integración de sistemas para servir mejor al procesamiento de información china en Internet y formar productos.
Retos a los que se enfrentan los motores de búsqueda
Es imposible que los motores de búsqueda actuales sean “amplios y profundos” porque son dos aspectos contradictorios y no pueden tener ambos. Con el rápido crecimiento de la información en Internet, cada vez es más difícil lograr la "amplitud" de los motores de búsqueda y es completamente innecesario desde la perspectiva de la utilización de la información. Por el contrario, la "profundidad" es un indicador al que la gente presta cada vez más atención y persigue. Además, está lejos de haberse establecido un sistema de servicio de búsqueda multinivel. La búsqueda tradicional enfatiza la navegación e ignora los servicios de información precisa, al igual que los peatones que piden direcciones. Los peatones no sólo necesitan direcciones, sino también señales viales concretas.
Hoy en día la gente suele hablar de la próxima generación de motores de búsqueda. Entonces, ¿cuál es la diferencia entre los motores de búsqueda de próxima generación y los motores de búsqueda de segunda generación? ¿Qué importa? ¿Qué características deberían incluirse? Todas estas son preguntas que deben responderse, pero las respuestas varían. Quizás la próxima generación de motores de búsqueda incorpore inteligencia más poderosa, interacción persona-computadora y otros métodos para mejorar el cálculo de la relevancia. Quizás la próxima generación de motores de búsqueda funcione no sólo en servidores de gran escala, sino también en grupos de computadoras personales con recursos informáticos o integradas en "chips de búsqueda". Quizás los límites de su base de datos indexada se hayan desdibujado, o quizás sean más claros. Quizás, después de todo, los gigantes de las búsquedas actuales, a través de barreras comerciales artificiales como fondos y marcas, no puedan resistirse a las tecnologías de búsqueda innovadoras.
—————————————————————————————
[Enlaces relacionados]
Escuelas técnicas de motores de búsqueda
Las escuelas técnicas de motores de búsqueda se pueden dividir en tres categorías: la primera es la escuela automatizada que utiliza programas informáticos para procesar información automáticamente, siendo los representantes típicos Google y Ghunt. ; el segundo es manual La escuela de procesamiento humano se centra en la clasificación y el procesamiento de información. Los representantes típicos en este sentido son los primeros Yahoo y la Web emergente. La búsqueda basada en la comunidad 2.0, como el resumen web, es un nuevo desarrollo en esta escuela de pensamiento.
La tercera categoría es la escuela de fusión, que enfatiza la interacción y colaboración inteligente entre humanos y computadoras. Actualmente, el buscador inglés Yahoo está desarrollando esta tecnología, ¿MSN? Live también muestra que presta más atención a la tecnología integrada. La búsqueda profesional de Liansuo IFACE combina el conocimiento del usuario y los métodos de aprendizaje automático, y puede considerarse como un representante típico de la convergencia entre los motores de búsqueda chinos.
Desde la perspectiva de la capacidad de la base de datos web, la tecnología informática asociativa, la experiencia de búsqueda del usuario y el modelo de negocio, el desarrollo de los motores de búsqueda ha pasado por aproximadamente dos generaciones. La primera generación de motores de búsqueda (1994 ~ 1997) generalmente indexaba millones de páginas web, utilizando tecnología de recuperación de texto completo y tecnología de computación paralela distribuida, pero rara vez recopilaba páginas web y actualizaba el índice, y la velocidad de recuperación era generalmente lenta. requiere una espera de 10 segundos y aún más, las solicitudes de recuperación que realiza también son muy limitadas y su modelo de negocio está en un estado de confusión.
La mayoría de los motores de búsqueda de segunda generación (1998) adoptan soluciones de procesamiento colaborativo distribuido. Sus bases de datos de índice web generalmente tienen decenas de millones de páginas web o más. Adoptan una arquitectura de base de datos de índice escalable y pueden responder a miles. de consultas cada día. Decenas o incluso cientos de millones de solicitudes de búsqueda de usuarios. El 11 de junio de 1997, los motores de búsqueda más avanzados de la época afirmaban que podían indexar 100 millones de páginas web. El motor de búsqueda de segunda generación representado por Google ha logrado un gran éxito calculando la relevancia mediante análisis de enlaces y análisis de clics (popularidad de la página web). Además, los buscadores que responden preguntas en lenguaje natural mejoran en cierta medida la experiencia del usuario. Más importante aún, el motor de búsqueda de segunda generación ha establecido un modelo de negocio maduro que suelen utilizar los motores de búsqueda de pago, como Google, Overture y Baidu, y se han beneficiado de este modelo de negocio.
Explicación de términos relacionados
El motor de búsqueda de texto completo es un programa robot llamado Spider, que recopila y descubre automáticamente información en Internet con determinadas estrategias. El indexador crea una base de datos de índice web para la información recopilada. El recuperador recupera la base de datos de índice de acuerdo con las condiciones de consulta ingresadas por el usuario y devuelve los resultados de la consulta al usuario. El modelo de servicio es el servicio de recuperación de texto completo de páginas web.
Los motores de búsqueda de índices de directorios recopilan información principalmente de forma manual. Después de que los editores verifican la información, forman manualmente un resumen de la información y la colocan en un marco de clasificación predeterminado. La mayor parte de la información está orientada a sitios web y proporciona servicios de exploración de directorios y servicios de recuperación directa. Los usuarios pueden buscar sin palabras clave o simplemente confiar en categorías para encontrar la información que necesitan.
El metabuscador se refiere a un sistema que disfruta de un conjunto de recursos de múltiples motores de búsqueda y proporciona a los usuarios servicios de información en forma de una interfaz de consulta de usuario unificada y retroalimentación de información. Los metabuscadores funcionan con la ayuda de otros motores de búsqueda y no tienen una base de índices propia. Envía las solicitudes de consulta del usuario a varios motores de búsqueda al mismo tiempo y, después de eliminarlas y reordenarlas repetidamente, devuelve los resultados devueltos como sus propios resultados.
La tecnología de clasificación automática es una computadora que clasifica automáticamente documentos en categorías específicas según los estándares de clasificación y según el sistema (o tema) de categorías existente. En la actualidad, la clasificación automática no puede sustituir completamente el trabajo relacionado realizado por humanos, sino que sólo proporciona una alternativa menos costosa.
La tecnología de agrupación de texto es un proceso totalmente automatizado de agrupar grandes cantidades de texto existente (muchos documentos) por computadora. La agrupación puede proporcionar una descripción general del contenido de grandes conjuntos de texto, identificar similitudes ocultas y explorar fácilmente textos similares o relacionados.
Los extractos de páginas web, también conocidos como extractos de páginas web, tienen funciones como recopilación, clasificación, extractos, anotaciones, guardado en la base de datos de información y apreciación en la base de datos de información. Satisface principalmente las necesidades de lectura de los usuarios. contenido en línea y acumular conocimientos de información.