Beautiful Soup可以对html,xml 格式进行解析并且提取相关的信息。
参考链接: https://www.crummy.com/software/BeautifulSoup/
(一)Beautiful Soup的使用
from bs4 import BeautifulSoup
soup = BeautifulSoup(‘<p>data</p>’,’html.parser’)
测试代码
(二)Beautiful Soup库解析器
Beautiful Soup类的基本元素
测试代码
(三)用bs4库遍历HTML
1、HTML基本格式
2、标签数的下行遍历
(1)head标签
(2)body标签
(3)遍历儿子节点
3、标签树的上行遍历
测试代码
4、标签树的平行遍历
平行遍历发生在同一个父节点下
测试代码
(四)bs4库的HTML格式化和编码
bs4库将任何读入的HTML代码和字符串转换为utf-8编码
文章评论(0条评论)
登录后参与讨论