DataScraper是一个通用的网站抓取器,内核是一个工作流引擎,高度模块化,可塑性极高,网站抓取过程完全基于网站抓取规则文件驱动,这些文件由语义结构和网站抓取规则定义器MetaStudio自动生成。DataScraper和MetaStudio分工合作,帮助用户快速抓取网站内容,建设垂直搜索、进行商业情报分析、建立商业智能系统等等。
网站抓取器DataScraper作为Firefox(火狐浏览器)扩展,部署在客户端,同部署在服务器的网站抓取器相比,运营成本大大降低,计算机、带宽、IP地址等资源使用费用远低于服务器侧解决方案,由于部署条件要求很宽松,所以,运营维护成本大大降低,在网站抓取服务系统MetaSeeker的服务器配合下,DataScraper的部署不受地域和数量限制,用户可以建设一个跨地域的大型的网站抓取网络(在海量网站抓取应用环境,用户可以选择部署企业私有的MetaSeeker服务器,即MetaSeeker企业版),
由于使用动态IP地址,被抓取的网站的反爬虫策略难于奏效。另外,由于采用基于DOM+XPath+XSLT的独特的网站抓取策略,Javascript
动态生成内容同服务器动态网页和静态网页一视同仁,最适合精度要求高、渗透力要求强的商业情报采集领域,例如,眼下火热的开源情报采集。
本版本相比上一版本,网站抓取器DataScraper的功能和性能进行了大幅改进:
文章评论(0条评论)
登录后参与讨论