EE直播间
更多
文章
首页 我的博文
用户234020 2010-1-13 22:07
基于工作流的分布式网站抓取器DataScraper
DataScraper是一个通用的 网站抓取器 ,内核是一个工作流引擎,高度模块化,可塑性极高,网站抓取过程完全基于网站抓取规则文件驱动,这些文件由语义结构和网站 ...
用户234020 2009-12-16 20:33
AJAX动态网页信息提取原理
考察网页信息提取软件工具包MetaSeeker的实现原理可以看出:MetaSeeker使用XPath和XSLT分析网页DOM并提取网页信息,虽然也可以使用一些字符串处理函数 自定义XP ...
用户234020 2009-12-16 20:25
怎样转义网站内容抓取规则中的单双引号
网站内容抓取软件工具包MetaSeeker自动生成的抓取规则文件是XSLT指令文件,XSLT使用XPath定位和匹配网站内容,如果被抓取的内容中有引号,包括双引号和单引号, ...
用户234020 2009-12-15 08:48
加载Web数据抽取样本页面
样本页面的结构代表了同一主题下的所有页面结构,所以,为样本页面定义的数据抽取规则可以普遍用于所有同一主题的页面数据抽取任务。当前互联网处于Web2.0时代 ...
关闭 站长推荐上一条 /3 下一条