原创 Python爬虫学习笔记(3)——Beautiful Soup 库

2017-11-8 19:16 1285 16 16 分类: 软件与OS

Beautiful Soup可以对html,xml 格式进行解析并且提取相关的信息。

参考链接: https://www.crummy.com/software/BeautifulSoup/


(一)Beautiful Soup的使用

from bs4 import BeautifulSoup
soup = BeautifulSoup(‘<p>data</p>’,’html.parser’)


测试代码



(二)Beautiful Soup库解析器


Beautiful Soup类的基本元素



测试代码




(三)用bs4库遍历HTML

1、HTML基本格式

2、标签数的下行遍历

(1)head标签


(2)body标签

(3)遍历儿子节点


3、标签树的上行遍历


测试代码


4、标签树的平行遍历

平行遍历发生在同一个父节点下

测试代码


(四)bs4库的HTML格式化和编码

bs4库将任何读入的HTML代码和字符串转换为utf-8编码






文章评论0条评论)

登录后参与讨论
我要评论
0
16
关闭 站长推荐上一条 /2 下一条