¿Cómo utilizar el rastreador de Python para rastrear contenido web?
De hecho, un rastreador web abstracto contiene los siguientes pasos.
Simular la página de solicitud. Simule un navegador y abra el sitio web de destino.
Obtener datos. Después de abrir el sitio web, podemos obtener automáticamente los datos del sitio web que necesitamos.
Guardar datos. Después de obtener los datos, es necesario conservarlos en un dispositivo de almacenamiento, como un archivo local o una base de datos.
Entonces, ¿cómo puedes escribir tu propio programa rastreador en Python? Aquí quiero centrarme en una biblioteca de Python: las solicitudes.
Uso de solicitudes
La biblioteca de solicitudes es una biblioteca para iniciar solicitudes HTTP en Python. Es muy conveniente y fácil de usar.
Simular el envío de una solicitud HTTP
Enviar una solicitud de obtención
Cuando abrimos la página de inicio de Douban con un navegador, la solicitud original que enviamos es en realidad un GET pedido.
Solicitudes de importación
res = request.get(' ')
Imprimir(resolución)
Imprimir(tipo(resolución))
& gt& gt& gt
& ltreply[200]& gt;
& ltclass ' modelos de respuesta ' & gt;
& p>