样本页面的结构代表了同一主题下的所有页面结构,所以,为样本页面定义的数据抽取规则可以普遍用于所有同一主题的页面数据抽取任务。当前互联网处于Web2.0时代,典型的网站都是以数据库为后盾,而HTML页面是以特定模板动态生成的,样本页面结构反映了网页模板结构,因此,为样本页面定义的数据抽取规则并推广应用于同一主题的所有页面的思路是可行的。当然,当前仍然有大量的手工编写的静态HTML网页,一般没有确定的网页模板,从这类网页上抽取数据要麻烦得多。
什么是数据抽取?不同领域有不同的解释:
好在现在是Web2.0时代,数据抽取软件工具包MetaSeeker大有用武之地,该软件包的数据抽取规则定义软件工具MetaStudio的首要任务是帮助用户快速地生成数据抽取规则,是在样本页面上进行的,也就是说,定义信息结构和生成数据抽取规则的起点是加载样本页面。
详细参见Web数据抽取技术资料
文章评论(0条评论)
登录后参与讨论