Colección de citas famosas - Colección de firmas - ¿Cómo utilizar el rastreador de Python para rastrear contenido web?

¿Cómo utilizar el rastreador de Python para rastrear contenido web?

Proceso de rastreo

De hecho, un rastreador web abstracto contiene los siguientes pasos.

Simular la página de solicitud. Simule un navegador y abra el sitio web de destino.

Obtener datos. Después de abrir el sitio web, podemos obtener automáticamente los datos del sitio web que necesitamos.

Guardar datos. Después de obtener los datos, es necesario conservarlos en un dispositivo de almacenamiento, como un archivo local o una base de datos.

Entonces, ¿cómo puedes escribir tu propio programa rastreador en Python? Aquí quiero centrarme en una biblioteca de Python: las solicitudes.

Uso de solicitudes

La biblioteca de solicitudes es una biblioteca para iniciar solicitudes HTTP en Python. Es muy conveniente y fácil de usar.

Simular el envío de una solicitud HTTP

Enviar una solicitud de obtención

Cuando abrimos la página de inicio de Douban con un navegador, la solicitud original que enviamos es en realidad un GET pedido.

Solicitudes de importación

res = request.get(' ')

Imprimir(resolución)

Imprimir(tipo(resolución))

& gt& gt& gt

& ltreply[200]& gt;

& ltclass ' modelos de respuesta ' & gt;

& p>