 

LoneSurvivor 明星博主

文章：49 阅读：144060 评论：10 赞：957

一入通信深似海，从此红颜是路人

 好友  私信个人主页

一入通信深似海，从此红颜是路人

文章 49
原创 0
阅读 144060
评论 10
赞 957

原创 Python爬虫学习笔记（3）——Beautiful Soup 库

 2017-11-8 19:16  1372 20 20 分类: 软件与OS

Beautiful Soup可以对html,xml 格式进行解析并且提取相关的信息。

参考链接： https://www.crummy.com/software/BeautifulSoup/

（一）Beautiful Soup的使用

from bs4 import BeautifulSoup

soup = BeautifulSoup(‘<p>data</p>’,’html.parser’)

测试代码

（二）Beautiful Soup库解析器

Beautiful Soup类的基本元素

测试代码

（三）用bs4库遍历HTML

1、HTML基本格式

2、标签数的下行遍历

（1）head标签

（2）body标签

（3）遍历儿子节点

3、标签树的上行遍历

测试代码

4、标签树的平行遍历

平行遍历发生在同一个父节点下

测试代码

（四）bs4库的HTML格式化和编码

bs4库将任何读入的HTML代码和字符串转换为utf-8编码

python 爬虫 Beautiful Soup jupyter notebook 博客大赛

写原创有奖励！2025面包板原创奖励正在进行中

上一篇： Python爬虫学习笔记（2）——爬虫实例
下一篇： Python爬虫学习笔记（4）——信息组织和提取

PARTNER CONTENT

换一换> 更多>

文章评论（0条评论）

登录后参与讨论

我要评论

 0

关闭站长推荐

上一条

/5

下一条