 

LoneSurvivor 明星博主

文章：49 阅读：140967 评论：10 赞：931

一入通信深似海，从此红颜是路人

 好友  私信个人主页

一入通信深似海，从此红颜是路人

文章 49
原创 0
阅读 140967
评论 10
赞 931

原创 Python爬虫学习笔记（4）——信息组织和提取

 2017-11-9 09:02  1164 18 18 分类: 软件与OS

YAML:信息无类型，文本信息比例最高，可读性好

（一）信息的标记

标记后的信息可以形成信息组织结构，增加了维度；

标记后的信息可以用于通信、存储或展示；

标记的结构与信息一样具有重要的价值；

1、XML

XML:最早的通用标记语言，可扩展性好，但是繁琐；

Internet 上的信息交互与传递；

2、JSON

JSON:信息有类型，适合程序处理，较XML简洁；

移动应用云端和节点的信息通信，无注释；

3、YAML

YAML:信息无类型，文本信息比例最高，可读性好

各类系统的配置文件，有注释易读

(二)信息的提取

方法一：完整解析信息的标记形式，再提取关键信息。需要标记解析器，例如：bs4库的标签树遍历；

优点：信息解析准确；

缺点：提取过程繁琐，速度慢

方法二：无视标记形式，直接搜索关键信息

测试代码

1、<>.find_all(name,attrs,recursive,string,**kwargs) 返回一个列表类型，存储查找结果。

（1）name: 对标签名称的检索字符串

（2）attrs:对标签属性值检索的字符串，可标注属性检索

（3）recursive: 是否对子孙全部检索，默认True

（4）string: <>…</>中字符串区域的检索字符串

python 爬虫信息提取 jupyter notebook 博客大赛

写原创有奖励！2025面包板原创奖励正在进行中

上一篇： Python爬虫学习笔记（3）——Beautiful Soup 库
下一篇： Python爬虫学习笔记（5）——爬取中国大学排名信息

PARTNER CONTENT

换一换> 更多>

提升汽车电子浪涌耐受性：SWM+TVS解决方案通过ISO 16750-2 Pulse 5a测试

firstohm 2025-04-14

AI时代的氮化镓：市场与技术将走向何方？

黄烨锋 2025-04-24

文章评论（0条评论）

登录后参与讨论

我要评论

 0

关闭站长推荐

上一条

/3

下一条