原创 Python爬虫学习笔记(3)——Beautiful Soup 库

2017-11-8 19:16 973 11 11 分类: 软件与OS

Beautiful Soup可以对html,xml 格式进行解析并且提取相关的信息。

参考链接: https://www.crummy.com/software/BeautifulSoup/


(一)Beautiful Soup的使用

from bs4 import BeautifulSoup
soup = BeautifulSoup(‘<p>data</p>’,’html.parser’)


测试代码



(二)Beautiful Soup库解析器


Beautiful Soup类的基本元素



测试代码




(三)用bs4库遍历HTML

1、HTML基本格式

2、标签数的下行遍历

(1)head标签


(2)body标签

(3)遍历儿子节点


3、标签树的上行遍历


测试代码


4、标签树的平行遍历

平行遍历发生在同一个父节点下

测试代码


(四)bs4库的HTML格式化和编码

bs4库将任何读入的HTML代码和字符串转换为utf-8编码






文章评论0条评论)

登录后参与讨论
相关推荐阅读
LoneSurvivor 2018-02-25 08:26
C++输入/输出流(2)
1. get()函数#include<iostream>using namespace std;int main(){    char s1[80], s2[...
LoneSurvivor 2018-02-23 12:19
C++输入/输出流(1)
1. 输入/输出流类层次 C++的输入/输出流类库是用派生方法建立起的,它有2个平行的基类,streambuf和ios。其他的流类都是从这两个基类直接或间接派生的。1.1  ...
LoneSurvivor 2018-02-19 11:36
C++多态(4)——特殊运算符重载和类类型转换
1.“++”和“--”的重载     运算符“++”和“--”的重载要区分前置和后置两种形式。如果不区分前置和后置,则使用operator++()或operator—()即可...
LoneSurvivor 2018-02-12 11:15
C++多态(3)——运算符重载
1.     运算符重载的定义     运算符重载也是实现多态的一个重要手段。运算符重载实现的是编译时的多态,即静态多态性。C++预...
LoneSurvivor 2018-02-12 10:31
C++多态(2)——纯虚函数与抽象类
   抽象类是一种特殊的类,它提供了统一的操作界面。建立抽象类是为了多态地使用抽象类的成员函数。抽象类是包含纯虚函数的类。 1.    ...
LoneSurvivor 2018-02-11 16:24
C++多态(1)
1.     多态      多态是人类思维方式的一种直接模拟,多态性是指不同对象接收到相同的消息时,根据对象类的不同而产...
我要评论
0
11
1
2
3
4
5
6
7
8
9
0
关闭 热点推荐上一条 /4 下一条