YAML:信息无类型,文本信息比例最高,可读性好
(一)信息的标记
标记后的信息可以形成信息组织结构,增加了维度;
标记后的信息可以用于通信、存储或展示;
标记的结构与信息一样具有重要的价值;
1、XML
XML:最早的通用标记语言,可扩展性好,但是繁琐;
Internet 上的信息交互与传递;
2、JSON
JSON:信息有类型,适合程序处理,较XML简洁;
移动应用云端和节点的信息通信,无注释;
3、YAML
YAML:信息无类型,文本信息比例最高,可读性好
各类系统的配置文件,有注释易读
(二)信息的提取
方法一:完整解析信息的标记形式,再提取关键信息。需要标记解析器,例如:bs4库的标签树遍历;
优点:信息解析准确;
缺点:提取过程繁琐,速度慢
方法二:无视标记形式,直接搜索关键信息
测试代码
1、<>.find_all(name,attrs,recursive,string,**kwargs) 返回一个列表类型,存储查找结果。
(1)name: 对标签名称的检索字符串
(2)attrs:对标签属性值检索的字符串,可标注属性检索
(3)recursive: 是否对子孙全部检索,默认True
(4)string: <>…</>中字符串区域的检索字符串
文章评论(0条评论)
登录后参与讨论