¿Qué es una araña web?

[Resumen] Cuando apareció el programa "araña", los motores de búsqueda en el sentido moderno comenzaron a tomar forma. En realidad, es un "robot" informático (Computer Robot). Un "robot" informático se refiere a un programa de software que puede realizar una determinada tarea sin interrupción a una velocidad que los humanos no pueden alcanzar. Porque el programa "robot" utilizado específicamente para recuperar información es como una araña que se arrastra por la red, una y otra vez, incansablemente. Por lo tanto, los programas "robots" de los motores de búsqueda se denominan programas "araña".

Palabras clave: Optimización de los principios de origen de las arañas web

Índice de contenidos

Qué es una araña web

El origen de la web arañas

Cómo funcionan las arañas web

El texto comienza con las arañas web

1. ¿Qué son las arañas web?

----Qué es la web arañas? Web Spider es un nombre muy vívido. Si se compara Internet con una telaraña, entonces una araña es una araña que se arrastra por la red. Las arañas web buscan páginas web a través de las direcciones de enlaces de las páginas web. Comienzan desde una determinada página del sitio web (generalmente la página de inicio), leen el contenido de la página web, encuentran otras direcciones de enlaces en la página web y luego las utilizan. direcciones de enlace para encontrar la siguiente página web. De esta manera, el bucle continúa hasta que se hayan rastreado todas las páginas web de este sitio web. Si consideramos Internet como un sitio web, las arañas web pueden utilizar este principio para rastrear todas las páginas web de Internet.

----De esta manera, una araña web es un programa rastreador, un programa que rastrea páginas web.

2. El origen de las arañas web

----Para hablar del origen de las arañas web, tenemos que empezar por los motores de búsqueda. ¿Qué es un motor de búsqueda? El origen de los motores de búsqueda está estrechamente relacionado con el origen de las arañas web.

----El motor de búsqueda se refiere a un sistema que recopila automáticamente información de Internet y la proporciona a los usuarios para que la consulten después de cierta clasificación. La información en Internet es vasta y desordenada. Toda la información es como pequeñas islas en el vasto océano. Los enlaces web son puentes entrecruzados entre estas pequeñas islas, y los motores de búsqueda le muestran un mapa de información claro. consultar en cualquier momento.

----Los motores de búsqueda han pasado por demasiados cambios tecnológicos y conceptuales desde que apareció su prototipo en 1990 y ahora se han convertido en una parte indispensable de la vida de las personas.

----Hace catorce años, en enero de 1994, se lanzó el primer directorio de categorías con capacidad de búsqueda y navegación, EINetGalaxy. Después apareció Yahoo, hasta que ahora conocemos a Google y Baidu. Pero no son los primeros en aprovechar los motores de búsqueda. A partir de la búsqueda de archivos en FTP, apareció el prototipo del motor de búsqueda. En ese momento, no existía la World Wide Web. En ese momento, la gente buscaba páginas web manualmente y luego usaba programas araña. ¿Cómo podemos recopilar la cantidad de páginas web? El tiempo cada vez más corto se convirtió en la dificultad y el enfoque en ese momento, y se convirtió en el foco de la investigación de las personas.

----Aparece el prototipo del motor de búsqueda

----Si quieres rastrearlo, el historial de los motores de búsqueda es más largo que el de WorldWideWeb. Mucho antes de la llegada de la Web, ya existían muchos recursos de información en Internet diseñados para que la gente los disfrutara. En ese momento, estos recursos existían principalmente en varios sitios FTP que permitían el acceso anónimo. Para que a las personas les resulte más fácil encontrar lo que necesitan en recursos FTP dispersos, en 1990, varios estudiantes universitarios de la Universidad McGill en Canadá desarrollaron el software Archie. Es una lista de búsqueda de nombres de archivos FTP. El usuario debe ingresar el nombre exacto del archivo a buscar y Archie le indicará qué dirección FTP puede descargar el archivo. Archie es en realidad una gran base de datos, además de un conjunto de métodos de búsqueda asociados con esta gran base de datos. Aunque Archie aún no es un motor de búsqueda, a juzgar por su principio de funcionamiento, es el antepasado de todos los motores de búsqueda.

----Cuando apareció la World Wide Web (WorldWideWeb), la gente podía difundir información de páginas web a través de html y la información en Internet comenzó a crecer exponencialmente.

La gente ha utilizado diversos métodos para recopilar, clasificar y organizar información en Internet para facilitar la búsqueda. En este entorno nació Yahoo, el sitio web que hoy conocemos. Jerry Yang, un chino-estadounidense que todavía estudiaba en la Universidad de Stanford, y sus compañeros se obsesionaron con Internet. Recopilaron páginas web interesantes en Internet y las compartieron con sus compañeros. Posteriormente, en abril de 1994, los dos fundaron juntos Yahoo. A medida que crecía el número de visitas y los enlaces incluidos, el Directorio de Yahoo comenzó a admitir búsquedas simples en bases de datos. Pero debido a que los datos de Yahoo se ingresan manualmente, en realidad no se puede clasificar como un motor de búsqueda y, de hecho, es solo un directorio en el que se pueden realizar búsquedas.

----Cuando apareció el programa "araña", el motor de búsqueda en el sentido moderno comenzó a tomar forma. En realidad, es un "robot" informático (Computer Robot). Un "robot" informático se refiere a un programa de software que puede realizar una determinada tarea sin interrupción a una velocidad que los humanos no pueden alcanzar. Porque el programa "robot" utilizado específicamente para recuperar información es como una araña que se arrastra por la red, una y otra vez, incansablemente. Por lo tanto, los programas "robots" de los motores de búsqueda se denominan programas "araña".

----Este programa en realidad utiliza la relación de enlace entre documentos html para rastrear una página web en la Web y captura estas páginas web en el sistema para su análisis y en la base de datos. La primera persona en desarrollar un programa "araña" fue Matthew Gray. Desarrolló World Wide Web Wanderer en 1993. Originalmente fue creado para contar la cantidad de servidores en Internet y luego se desarrolló para capturar URL. La idea de los motores de búsqueda modernos proviene de Wanderer, y muchas personas posteriormente mejoraron el programa spider sobre esta base.

----El sitio web Lycos lanzado el 20 de julio de 1994 fue el primero en integrar el programa "spider" en su programa de indexación. La mayor ventaja que le aporta la introducción de "spider" es que su volumen de datos es muy superior al de otros motores de búsqueda. Desde entonces, casi todos los motores de búsqueda dominantes se han basado en "arañas" para recopilar información de las páginas web. Infoseek es otro importante motor de búsqueda que se lanzó al público a finales de 1994. Al principio, Infoseek era sólo un motor de búsqueda discreto. Seguía los conceptos de Yahoo! y Lycos sin innovaciones exclusivas. Pero su interfaz fácil de usar y numerosos servicios adicionales le han ganado una reputación entre los usuarios. En diciembre de 1995, su acuerdo estratégico con Netscape lo convirtió en un potente motor de búsqueda: cuando el usuario hace clic en el botón de búsqueda del navegador Netscape, aparece el servicio de búsqueda de Infoseek, que anteriormente proporcionaba Yahoo! El 15 de diciembre de 1995 se lanzó oficialmente Alta Vista. Es el primer motor de búsqueda que admite sintaxis de búsqueda avanzada. Integra con éxito todas las tecnologías de recuperación de información humana anteriores y resuelve problemas clave que incluyen el procesamiento de raíz, la recuperación de palabras clave, la lógica booleana y la clasificación de consultas a través de modelos de espacio vectorial. Antes de su lanzamiento oficial, Alta Vista ya contaba con 200.000 visitantes. En sólo tres semanas, el número de visitantes aumentó de 300.000 a 2 millones por día. Su éxito radica en satisfacer las necesidades de los usuarios en tres aspectos: el alcance de la indexación en línea supera el de cualquier motor de búsqueda anterior; los resultados de búsqueda pueden devolverse a los usuarios desde una enorme base de datos en sólo unos segundos; on Se utiliza una tecnología de diseño modular que permite que el sitio web rastree las tendencias populares mientras expande continuamente las capacidades de procesamiento. Entre los muchos motores de búsqueda de la época, Alta Vista se destacó y se convirtió en sinónimo de búsqueda web. Google se apoya en esos gigantes para subvertir y crear. "Buscar en línea" Lo que cambió la forma en que la gente navega por Internet es el ahora famoso Google. Google no es el inventor del motor de búsqueda, e incluso está un poco por detrás, pero ha hecho que la gente se enamore de la búsqueda.

----En septiembre de 1998, cuando Page y Brin fundaron Google, la comprensión que tenía la industria de la función de búsqueda en Internet era: cuanto más frecuentemente aparece una palabra clave en un documento, mayor es la frecuencia de la función de búsqueda. Cuanto más destacado sea el documento, más destacado aparecerá en los resultados de búsqueda.

Esto lleva al problema de que si una página está llena de una determinada palabra clave, ocupará un lugar destacado, pero dicha página no tendrá significado para el usuario. Page y Brin inventaron la tecnología "PageRank" para clasificar los resultados de búsqueda. Es decir, clasificar examinando la frecuencia y la importancia de los enlaces a la página en Internet. Cuanto más importantes sean los sitios web en Internet que apunten a esta página, mayor será la clasificación de la página. Al enlazar desde la página web A a la página web B, Google considera que "la página web A votó por la página web B". Google califica la importancia de una página según la cantidad de votos que recibe. Sin embargo, además de considerar el número puro de votos de una página web, Google también analiza las páginas web de votación. Los votos emitidos por páginas web "importantes" tendrán un mayor peso y ayudarán a aumentar la "importancia" de otras páginas web. ". Los métodos de búsqueda sofisticados y totalmente automatizados de Google eliminan cualquier influencia humana en los resultados de búsqueda. Nadie puede gastar dinero para comprar una clasificación de página más alta, garantizando así la objetividad y equidad de la clasificación de la página. Además, los internautas también adoran profundamente las búsquedas integradas, como resúmenes dinámicos, instantáneas de páginas web, soporte de formatos de múltiples documentos, mapas, diccionarios de valores y búsqueda de personas. Muchos otros motores de búsqueda siguieron a Google y lanzaron estos servicios. AllTheWeb, un motor de búsqueda lanzado por Fast (Alltheweb), tiene su sede en Noruega y su popularidad en el extranjero es cercana a la de Google. La búsqueda web de Alltheweb admite búsquedas en Flash y PDF, admite búsquedas en varios idiomas y también proporciona búsqueda de noticias, búsqueda de imágenes, búsqueda de videos, MP3 y FTP, y tiene funciones de búsqueda avanzadas extremadamente poderosas. Baidu de China está atrayendo a la audiencia de Internet de China al "comprender mejor al chino". Tiene una base de datos de más de mil millones de páginas web chinas, y el número de estas páginas web está creciendo a un ritmo de decenas de millones cada día.

----Los motores de búsqueda se están convirtiendo cada vez más en una parte importante de la vida de las personas. No hay nada que no se pueda buscar, como encontrar información, buscar mapas y escuchar música.

----Tres principios básicos de los motores de búsqueda

----1. Utilice programas del sistema araña para acceder automáticamente a Internet y rastrear otras páginas web a lo largo de todas las URL de cualquier página web. Repita este proceso y recopile todas las páginas web rastreadas.

----2. El programa del sistema de indexación y análisis analiza las páginas web recopiladas, extrae información relevante de la página web y realiza una gran cantidad de cálculos complejos basados ​​en un determinado algoritmo de correlación para obtener el contenido de cada página web y la relevancia (o importancia) de cada palabra clave en el hipervínculo, y luego utilice esta información relevante para crear una base de datos de índice de páginas web.

----3. Cuando el usuario ingresa una búsqueda de palabra clave, el programa del sistema de búsqueda encuentra todas las páginas web relevantes que coinciden con la palabra clave de la base de datos del índice web. La correlación se ordena numéricamente. Cuanto mayor es la correlación, mayor es la clasificación. Finalmente, el sistema de generación de páginas organiza la dirección del enlace de los resultados de búsqueda y el resumen del contenido de la página y se lo devuelve al usuario.

----Hablando de esto, ¡es posible que tengas una comprensión preliminar de los motores de búsqueda y las arañas web!

3. Cómo funcionan las arañas web

----Para los motores de búsqueda, es casi imposible rastrear todas las páginas web en Internet. A partir de los datos publicados actualmente, parece que. El motor de búsqueda con mayor capacidad solo rastrea alrededor del 40% de toda la página web. La razón de esto es, por un lado, el cuello de botella de la tecnología de rastreo, que no puede atravesar todas las páginas web y muchas páginas web no se pueden encontrar a través de enlaces de otras páginas web; la otra razón es el problema de la tecnología de almacenamiento y la tecnología de procesamiento; Si según el promedio de cada página Calculado en un tamaño de 20K (incluidas las imágenes), la capacidad de 10 mil millones de páginas web es de 100 × 2000G bytes. Incluso si se puede almacenar, todavía hay problemas con la descarga (cálculo basado en un. máquina descarga 20K por segundo, se requieren 340 máquinas para descargar continuamente durante un año para descargar todas las páginas web). Al mismo tiempo, debido a la gran cantidad de datos, también habrá un impacto en la eficiencia a la hora de realizar búsquedas. Por lo tanto, muchas arañas web de motores de búsqueda solo rastrean aquellas páginas web importantes, y la base principal para evaluar la importancia al rastrear es la profundidad del enlace de una determinada página web.

----Al rastrear páginas web, las arañas web generalmente tienen dos estrategias: primero la amplitud y primero la profundidad (como se muestra en la figura siguiente).

----Amplitud primero significa que la araña web primero rastreará todas las páginas web vinculadas en la página web inicial, luego seleccionará una de las páginas web vinculadas y continuará rastreando todas las páginas web vinculadas en esta. Página web. . Este es el método más utilizado porque permite a las arañas web procesar en paralelo y mejorar su velocidad de rastreo. Profundidad primero significa que la araña web comenzará desde la página de inicio y seguirá un enlace uno por uno. Después de procesar esta línea, pasará a la siguiente página de inicio y continuará siguiendo los enlaces. Este método tiene la ventaja de que es más fácil de diseñar para las arañas web. La diferencia entre las dos estrategias será más clara como se muestra en la siguiente figura.

----Dado que es imposible rastrear todas las páginas web, algunas arañas web establecen niveles de acceso para algunos sitios web menos importantes. Por ejemplo, en la figura anterior, A es la página web inicial y pertenece a la capa 0, B, C, D, E y F pertenecen a la capa 1, G y H pertenecen a la capa 2 e I pertenece a la capa 3. Si el nivel de acceso establecido por la araña web es 2, no se accederá a la página web I. Esto también permite que algunas páginas web de algunos sitios web se puedan buscar en los motores de búsqueda, mientras que otras partes no se pueden buscar. Para los diseñadores de sitios web, un diseño de estructura de sitio web plano ayuda a los motores de búsqueda a rastrear más páginas web.

----Cuando las arañas web visitan páginas web, a menudo encuentran problemas con los datos cifrados y los permisos de la página web. Algunas páginas web requieren permisos de membresía para acceder. Por supuesto, los propietarios de sitios web pueden evitar que las arañas web rastreen sus informes (que se presentarán en la siguiente sección), pero algunos sitios web que venden informes esperan que los motores de búsqueda puedan buscar sus informes, pero no pueden permitir que los motores de búsqueda sean completamente gratuito. Para visualizarlo es necesario proporcionar al web spider el correspondiente nombre de usuario y contraseña. Las arañas web pueden rastrear estas páginas web con los permisos otorgados para realizar búsquedas. Cuando el buscador hace clic para ver la página web, también debe proporcionar la verificación del permiso correspondiente.

----Cada araña web tiene su propio nombre y, al rastrear páginas web, indicará su identidad al sitio web. Cuando una araña web rastrea una página web, enviará una solicitud. Hay un campo en esta solicitud llamado Agente de usuario, que se utiliza para identificar la identidad de la araña web. Por ejemplo, el logotipo de la araña web de Google es GoogleBot, el logotipo de la araña web de Baidu es BaiDuSpider y el logotipo de la araña web de Yahoo es Inktomi Slurp. Si hay registros de acceso en el sitio web, el administrador del sitio web puede saber qué arañas de motores de búsqueda han estado aquí, cuándo llegaron, cuántos datos han leído, etc. Si un webmaster descubre un problema con una araña en particular, puede contactar al propietario a través de su logotipo.

----Cuando una araña web ingresa a un sitio web, generalmente accede a un archivo de texto especial Robots.txt. Este archivo generalmente se coloca en el directorio raíz del servidor del sitio web, como por ejemplo: [url]. /robots.txt [/url]. Los administradores de sitios web pueden utilizar robots.txt para definir a qué directorios no pueden acceder las arañas web o a qué directorios no pueden acceder determinadas arañas web. Por ejemplo, el directorio de archivos ejecutables y el directorio de archivos temporales de algunos sitios web no desean ser buscados por los motores de búsqueda. Entonces el administrador del sitio web puede definir estos directorios como directorios de acceso denegado. La sintaxis de Robots.txt es muy simple. Por ejemplo, si no hay restricciones en el directorio, se puede describir con las dos líneas siguientes: User-agent: *

Disallow:

.

----Por supuesto, Robots.txt es solo un protocolo. Si el diseñador de la araña web no sigue este protocolo, el administrador del sitio web no puede evitar que la araña web acceda a ciertas páginas. seguirá estos protocolos, y el administrador del sitio web también puede pasar Otras formas de impedir que las arañas web rastreen determinadas páginas web.

---- Cuando una araña web descarga una página web, identificará el código HTML de la página web y habrá una marca META en la parte del código. A través de estos identificadores, puede indicar a las arañas web si es necesario rastrear esta página web y también puede indicarles a las arañas web si es necesario seguir rastreando los enlaces de esta página web. Por ejemplo: significa que no es necesario rastrear esta página web, pero sí es necesario rastrear los enlaces dentro de la página web.

---- Los motores de búsqueda crean índices de páginas web y procesan archivos de texto.

Para las arañas web, las páginas web rastreadas incluyen varios formatos, incluidos html, imágenes, doc, pdf, multimedia, páginas web dinámicas y otros formatos. Una vez capturados estos archivos, es necesario extraer la información de texto de estos archivos. La extracción precisa de la información de estos documentos desempeña, por un lado, un papel importante en la precisión de las búsquedas de los motores de búsqueda y, por otro lado, influye en cierta medida en el correcto seguimiento de otros enlaces por parte de las arañas web. Para documentos como doc y pdf, generados por software proporcionado por fabricantes profesionales, los fabricantes proporcionarán las interfaces de extracción de texto correspondientes. Las arañas web solo necesitan llamar a las interfaces de estos complementos para extraer fácilmente la información de texto del documento y otra información relacionada del archivo. Pero los documentos como HTML son diferentes. HTML tiene su propia sintaxis, que utiliza diferentes identificadores de comando para representar diferentes fuentes, colores, posiciones y otros formatos, como:,,, etc. Estos identificadores deben filtrarse al extraer información de texto. . Filtrar identificadores no es difícil, porque estos identificadores tienen ciertas reglas y solo necesita obtener la información correspondiente de acuerdo con diferentes identificadores. Sin embargo, al identificar esta información, es necesario registrar simultáneamente una gran cantidad de información de diseño, como el tamaño de fuente del texto, si es un título, si está en negrita, si es una palabra clave en la página, etc. Esta información ayuda a calcular la posición de la palabra en la importancia de la página web. Al mismo tiempo, para las páginas web HTML, además del título y el texto, habrá muchos enlaces publicitarios y enlaces de canales públicos. Estos enlaces no tienen nada que ver con el cuerpo del texto. filtrar estos enlaces inútiles. Por ejemplo, un sitio web tiene un canal de "Introducción del producto", porque la barra de navegación está en cada página web del sitio web. Si el enlace de la barra de navegación no está filtrado, al buscar "Introducción del producto", se mostrarán todas las páginas web del sitio web. ser buscado. No hay duda de que traerá mucho spam. Filtrar estos enlaces no válidos requiere contar una gran cantidad de patrones de estructura de páginas web, extraer algunas singularidades y filtrarlos de manera uniforme. Algunos sitios web importantes con resultados especiales también deben procesarse individualmente. Esto requiere un cierto grado de escalabilidad en el diseño de arañas web.

---- Para archivos como multimedia e imágenes, el contenido de estos archivos generalmente se juzga a través del texto ancla del enlace (es decir, el texto del enlace) y los comentarios del archivo relacionado. Por ejemplo, si hay un enlace con el texto "Foto de Maggie Cheung" y el enlace apunta a una imagen en formato bmp, entonces la araña web sabrá que el contenido de esta imagen es "Foto de Maggie Cheung". De esta manera, los motores de búsqueda pueden encontrar esta imagen cuando buscan "Maggie Cheung" y "foto". Además, muchos archivos multimedia tienen atributos de archivo y, al considerar estos atributos, también se puede comprender mejor el contenido del archivo.

----Las páginas web dinámicas siempre han sido un problema al que se enfrentan las arañas web. La llamada página web dinámica es una página generada automáticamente por un programa en comparación con una página web estática. La ventaja de esto es que el estilo de la página web se puede cambiar de manera rápida y uniforme y también puede reducir el espacio ocupado. la página web en el servidor, pero también aumenta el tiempo de rastreo de las arañas web. Ven y ten algunos problemas. A medida que los lenguajes de desarrollo continúan aumentando, existen cada vez más tipos de páginas web dinámicas, como asp, jsp, php, etc. Este tipo de páginas web pueden resultar un poco más fáciles para las arañas web. Lo que es más difícil de procesar para las arañas web son las páginas web generadas por algunos lenguajes de secuencias de comandos (como VBScript y JavaScript). Si desea procesar estas páginas web a la perfección, las arañas web deben tener su propio intérprete de secuencias de comandos. Para muchos sitios web donde los datos se almacenan en bases de datos, la información debe obtenerse mediante búsquedas en bases de datos en este sitio web, lo que genera grandes dificultades para las arañas web. Para este tipo de sitio web, si el diseñador del sitio web quiere que los motores de búsqueda puedan buscar los datos, debe proporcionar una forma de recorrer todo el contenido de la base de datos.

La extracción de contenido web siempre ha sido una tecnología importante en las arañas web. Todo el sistema generalmente adopta la forma de complementos. A través de un programa de servicio de administración de complementos, se utilizan diferentes complementos para procesar páginas web en diferentes formatos. La ventaja de este método es que tiene buena escalabilidad. Cada vez que se descubre un nuevo tipo en el futuro, su método de procesamiento puede convertirse en un complemento y agregarse al programa de servicio de administración de complementos.

---- Dado que el contenido del sitio web cambia con frecuencia, las arañas web también necesitan actualizar constantemente el contenido de las páginas web que rastrean. Esto requiere que las arañas web escaneen el sitio web según un ciclo determinado. para ver qué páginas son las que deben actualizarse, qué páginas son páginas nuevas y qué páginas son enlaces inactivos que han caducado.

---- El ciclo de actualización de los motores de búsqueda tiene un gran impacto en la tasa de recuperación de las búsquedas en los motores de búsqueda. Si el ciclo de actualización es demasiado largo, siempre habrá algunas páginas web recién generadas que no se podrán buscar; si el ciclo es demasiado corto, la implementación técnica será difícil y se desperdiciarán ancho de banda y recursos del servidor. Las arañas web de los motores de búsqueda no actualizan todos los sitios web en el mismo ciclo. Para algunos sitios web importantes con una gran cantidad de actualizaciones, el ciclo de actualización es corto. Por ejemplo, algunos sitios web de noticias se actualizan cada pocas horas. Sitios web, el ciclo de actualización es corto El sitio web tiene un ciclo de actualización largo, tal vez solo se actualiza una vez cada mes o dos.

---- En términos generales, cuando las arañas web actualizan el contenido del sitio web, no necesitan volver a rastrear las páginas del sitio web. Para la mayoría de las páginas web, solo necesitan determinar los atributos de las páginas web (. principalmente la fecha), compare los atributos obtenidos con los últimos atributos recuperados; si son iguales, no es necesario actualizarlos.

---- Ahora todos tienen una comprensión preliminar del principio de funcionamiento de las arañas web. Después de comprenderlo, es necesario considerar las reglas de rastreo de las arañas en la producción futura de sitios web. El mapa es muy importante. Está bien, si tiene mejores ideas, publíquelas aquí. Firebird está muy dispuesto a comunicarse con usted, *** y estudiaremos juntos las habilidades de producción de sitios web e intentaremos que su sitio web cumpla con los estándares. ¡En línea con los hábitos del usuario!