原创 Python爬虫学习笔记(4)——信息组织和提取

2017-11-9 09:02 969 13 13 分类: 软件与OS


YAML:信息无类型,文本信息比例最高,可读性好


(一)信息的标记

标记后的信息可以形成信息组织结构,增加了维度;

标记后的信息可以用于通信、存储或展示;

标记的结构与信息一样具有重要的价值;


1、XML

XML:最早的通用标记语言,可扩展性好,但是繁琐;

Internet 上的信息交互与传递;


2、JSON

JSON:信息有类型,适合程序处理,较XML简洁;

移动应用云端和节点的信息通信,无注释;



3、YAML

YAML:信息无类型,文本信息比例最高,可读性好

各类系统的配置文件,有注释易读


(二)信息的提取

方法一:完整解析信息的标记形式,再提取关键信息。需要标记解析器,例如:bs4库的标签树遍历;

     优点:信息解析准确;

     缺点:提取过程繁琐,速度慢

方法二:无视标记形式,直接搜索关键信息


测试代码


1、<>.find_all(name,attrs,recursive,string,**kwargs)   返回一个列表类型,存储查找结果。

(1)name: 对标签名称的检索字符串



(2)attrs:对标签属性值检索的字符串,可标注属性检索



(3)recursive: 是否对子孙全部检索,默认True



(4)string: <>…</>中字符串区域的检索字符串





文章评论0条评论)

登录后参与讨论
相关推荐阅读
LoneSurvivor 2018-02-25 08:26
C++输入/输出流(2)
1. get()函数#include<iostream>using namespace std;int main(){    char s1[80], s2[...
LoneSurvivor 2018-02-23 12:19
C++输入/输出流(1)
1. 输入/输出流类层次 C++的输入/输出流类库是用派生方法建立起的,它有2个平行的基类,streambuf和ios。其他的流类都是从这两个基类直接或间接派生的。1.1   s...
LoneSurvivor 2018-02-19 11:36
C++多态(4)——特殊运算符重载和类类型转换
1.“++”和“--”的重载     运算符“++”和“--”的重载要区分前置和后置两种形式。如果不区分前置和后置,则使用operator++()或operator—()即可,否...
LoneSurvivor 2018-02-12 11:15
C++多态(3)——运算符重载
1.     运算符重载的定义     运算符重载也是实现多态的一个重要手段。运算符重载实现的是编译时的多态,即静态多态性。C++预定义的...
LoneSurvivor 2018-02-12 10:31
C++多态(2)——纯虚函数与抽象类
   抽象类是一种特殊的类,它提供了统一的操作界面。建立抽象类是为了多态地使用抽象类的成员函数。抽象类是包含纯虚函数的类。 1.     ...
LoneSurvivor 2018-02-11 16:24
C++多态(1)
1.     多态      多态是人类思维方式的一种直接模拟,多态性是指不同对象接收到相同的消息时,根据对象类的不同而产生不同...
我要评论
0
13
1
2
3
4
5
6
7
8
9
0
关闭 站长推荐上一条 /3 下一条