Colección de citas famosas - Diccionario de frases chinas - Python, ¿qué biblioteca de rastreadores es fácil de usar?

Python, ¿qué biblioteca de rastreadores es fácil de usar?

Las bibliotecas de rastreadores de Python generalmente se dividen en tres categorías.

Clase Grab

Ullib (Python3) es una biblioteca que viene con Python, que puede simular solicitudes del navegador y obtener respuestas analizadas. Proporciona una gran cantidad de métodos de solicitud y admite varios parámetros, como cookies y encabezados. Básicamente, muchas bibliotecas de rastreadores se basan en él. Se recomienda aprender sobre esto, porque algunos problemas raros deben resolverse de bajo nivel.

Las solicitudes basadas en urllib son más convenientes y fáciles de usar. Altamente recomendado para dominar.

Clase de análisis

Respuesta: La biblioteca oficial de expresiones regulares no solo se utiliza para aprender rastreadores, sino que también es una biblioteca inevitable para otros procesamientos de cadenas o lenguaje natural. para dominarlo.

BeautifulSoup: fácil de usar, fácil de usar, recomendado para dominar. Seleccione elementos de la página a través de selectores y obtenga el contenido correspondiente.

Lxml: use

lxml.etree

Después de convertir la cadena, podemos usar expresiones XPath para analizar la página web, esta es la sugerencia final. XPath admite el análisis de páginas web de forma muy potente y es fácil de usar. Fue diseñado originalmente para la selección de elementos XML, pero también es compatible con HTML. Pyquery: otra poderosa biblioteca de análisis, puede aprenderla si está interesado.

Sintético

Selenium: rastreador WYSIWYG, que integra funciones de rastreo y análisis en una solución integral. Muchas páginas web dinámicas no son fáciles de rastrear directamente mediante solicitudes y scrapy. Por ejemplo, algunas URL van seguidas de números aleatorios cifrados y estos algoritmos no son fáciles de descifrar. En este caso, el código fuente de la página sólo se puede solicitar accediendo directamente a la URL y simulando un inicio de sesión, analizando el contenido directamente desde los elementos de la página web. En este caso, el selenio es la mejor opción. Pero Selenium fue diseñado originalmente para realizar pruebas. Altamente recomendado.

Scrapy: otro artefacto de rastreador, adecuado para rastrear una gran cantidad de páginas e incluso proporciona un buen soporte para rastreadores distribuidos. Altamente recomendado.

Estas son las bibliotecas que personalmente uso con frecuencia, pero hay muchas otras herramientas que vale la pena aprender. Por ejemplo, Splash también admite el rastreo de páginas web dinámicas; Appium puede ayudarnos a rastrear el contenido de la aplicación; Charles puede ayudarnos a agarrar la bolsa y tiene un buen soporte para páginas web móviles y de PC. framework; MySQL (pymysql), MongoDB (pymongo), una vez que se capturan los datos, deben almacenarse y no se puede omitir la base de datos.

Después de dominar lo anterior, ¡la mayoría de las tareas del rastreador básicamente no serán difíciles para usted!