网页信息提取软件工具包MetaSeeker虽然使用专利FreeFormat技术和独特的网页信息定位技术以提高网页信息提取规则的适应性,但是,也不能确保先前定义的信息结构和网页信息提取规则总是能够适用目标网站,也许目标网站会进行彻底改版,不仅仅改变CSS风格和页面显示样式,而是改变HTML网页结构,对内容重新进行组织,MetaSeeker能够有效地自主应对前者,但是,对于后者,只有修改信息结构的定义并生成符合新结构的网页信息提取规则。
在MetaSeeker软件工具包的帮助下,用户不必从头开始重新定义新的网页信息提取规则,而是可以编辑修改原有的信息结构,这得益于将信息结构描述文件存储于MetaSeeker系统的服务器上,这样MetaSeeker客户端软件MetaStudio就像信息结构描述文件的图形界面编辑器,随时可以加载信息结构并予以修改。
将信息结构描述文件和网页信息提取规则文件集中存放在服务器上的另一个好处:可以构建一个跨地域的分布式网络爬虫和网页信息提取系统。这已经不是多线程、多进程甚至多计算机这些级别的分布式了,跨地域分布式的最大好处在于:除了能够自由扩展网页信息提取效率,还能够大量使用只有动态IP地址的计算机进行网页信息提取,例如,进行一些有争议的具有侵略性的网页信息提取时,不容易被封锁IP。当然,我们旗帜鲜明地反对违反著作权和其他知识产权相关法律的行为,但是,在通过深加工抓取到的网页信息制作衍生作品(例如,混搭,mashup)方面,MetaSeeker软件工具包有卓越的表现。
当用户在Bucket Editor工作台和Clue Editor工作台上分别定义完网页数据提取规则和超链接提取规则后,应该上载信息结构和网页信息提取规则文件,在MetaStudio的工具条的最右边有个Schema按钮,可以将信息结构描述文件和生成的网页信息提取规则文件上载到服务器上,同时,在服务器上还会为本次信息结构定义任务创建一个初始线索(存放在SpiderClue表中),DataScraper用其进行网络爬行和数据下载。例如,提取论坛网站上的帖子时,这个初始线索用来提取论坛帖子列表,是网络爬虫的入口,所谓的种子。
MetaStudio工具条上还有一个按钮Instruction,用于生成和上载网页信息提取规则文件,并刷新SpiderClue数据库表,以做好信息提取的准备。
注意:如果信息结构描述文件从来没有上载到服务器上,不能使用Instruction按钮,而使用Schema按钮同时上载信息结构描述文件和网页信息提取规则文件,并让服务器在主题数据库中插入必要的记录。
如果上载操作成功完成,界面焦点将转向工作流文件标签窗口,而且状态条显示完成。