Cómo capturar información de página dinámica usando Python
Existe una forma sencilla de analizar dinámicamente la información de la página. Urllib no puede analizar información dinámica, pero el navegador sí. La información procesada que se muestra en el navegador es en realidad texto HTML procesado.
Archivo. Esto nos proporciona una buena idea para capturar información de página dinámica. Hay una biblioteca de gráficos famosa en Python-pyqt. Aunque PyQt es una biblioteca de gráficos, está dentro de ella.
QtWebkit. Esto es muy práctico. Chrome de Google y Safari de Apple se desarrollan en base al núcleo de WebKit, por lo que podemos obtener QtWebKit de PyQt.
Leer la información de la página y cargarla en un documento HTML, luego analizar el documento HTML y extraer la información que queremos usar del documento HTML.
Materiales necesarios:
El autor utiliza MAC OS X. Se debe utilizar el mismo método en las plataformas Windows y Linux.
1. Biblioteca Qt4
Es una biblioteca, no un creador. Esta biblioteca se encuentra en la ruta de instalación predeterminada de Mac, que debería ser /home/nombre de usuario/desarrollador/. No cambie la ruta de instalación predeterminada de Qt4. De lo contrario, la instalación puede fallar.
Sitio web oficial: /snake Wu 1994/stylebase_four/en_album_607236 shtml")
Parser = MyParser ()
Parser. feed (browser.html)
Imprimir "Listo"
browser.close()
Con este programa puedes descargar todo lo que ves en la web. Imágenes. Unas pocas líneas de procedimientos simples completan esta difícil tarea. Esta es realmente la ventaja del lenguaje Python.