热度 16
2017-11-8 19:16
1289 次阅读|
0 个评论
Beautiful Soup 可以对 html,xml 格式进行解析并且提取相关的信息。 参考链接: https://www.crummy.com/software/BeautifulSoup/ (一)Beautiful Soup的使用 from bs4 import BeautifulSoup soup = BeautifulSoup(‘pdata/p’,’html.parser’) 测试代码 (二)Beautiful Soup 库解析器 Beautiful Soup 类的基本元素 测试代码 (三)用bs4库遍历HTML 1、HTML基本格式 2、标签数的下行遍历 (1)head标签 (2)body标签 (3)遍历儿子节点 3、标签树的上行遍历 测试代码 4、标签树的平行遍历 平行遍历发生在同一个父节点下 测试代码 (四)bs4库的HTML格式化和编码 bs4库将任何读入的HTML代码和字符串转换为utf-8编码