Uso básico de BeautifulSoup
BeautifulSoup admite el analizador HTML de la biblioteca estándar de Python y algunos analizadores de terceros, uno de los cuales es lxml. La siguiente es una comparación de las ventajas y desventajas de los analizadores admitidos en la documentación oficial de BeautifulSoup.
Se recomienda utilizar el intérprete Lxml para una mayor eficiencia. Nota: Diferentes analizadores devuelven resultados diferentes.
A través del analizador, BeautifulSoup puede pasar una cadena o un archivo.
Beautiful Soup convierte documentos HTML complejos en estructuras de árbol complejas. Cada nodo es un objeto Python y todos los objetos se pueden dividir en cuatro tipos: etiquetas, cadenas navegables, sopas bonitas y comentarios. A continuación, utilice el siguiente documento para explicarlo.
Puedes ver que el punto A solo devuelve el primero. Si necesita recorrerlos todos, debe usar find_all('a ').
La etiqueta tiene muchos atributos, los dos más importantes son el nombre y los atributos. El nombre generalmente devuelve la etiqueta en sí (la sopa devuelve el documento). Tenga en cuenta que el atributo de etiqueta funciona de la misma manera que un diccionario.
La selección de nodos mencionada anteriormente puede utilizar etiquetas directamente, como
. Children es un generador de listas que puede atravesar nodos secundarios.
Los descendientes devolverán todos los nodos descendientes y compararán las diferencias de salida entre los nodos secundarios y los nodos descendientes.