tag 标签: 信息提取

相关博文
  • 热度 15
    2017-11-9 09:02
    1082 次阅读|
    0 个评论
    YAML: 信息无类型,文本信息比例最高,可读性好 (一)信息的标记 标记后的信息可以形成信息组织结构,增加了维度; 标记后的信息可以用于通信、存储或展示; 标记的结构与信息一样具有重要的价值; 1、XML XML: 最早的通用标记语言,可扩展性好,但是繁琐; Internet 上的信息交互与传递; 2、JSON JSON: 信息有类型,适合程序处理,较 XML 简洁; 移动应用云端和节点的信息通信,无注释; 3、YAML YAML:信息无类型,文本信息比例最高,可读性好 各类系统的配置文件,有注释易读 (二)信息的提取 方法一:完整解析信息的标记形式,再提取关键信息。需要标记解析器,例如: bs4 库的标签树遍历;      优点:信息解析准确;      缺点:提取过程繁琐,速度慢 方法二:无视标记形式,直接搜索关键信息 测试代码 1、.find_all(name,attrs,recursive,string,**kwargs)   返回一个列表 类型,存储查找结果。 (1) name: 对标签名称的检索字符串 (2)attrs: 对标签属性值检索的字符串,可标注属性检索 (3)recursive: 是否对子孙全部检索,默认 True (4)string: …/ 中字符串区域的检索字符串 ​ ​