聚焦网络爬虫也叫定题网络爬虫,同综合搜索引擎使用的网络爬虫不同,没有将网页上的所有超链接提取下来作为爬虫线索,而是仅提取与主题有关的线索,信息提取软件工具包MetaSeeker中的爬虫就是聚焦网络爬虫,另外,信息提取软件爬行网络的目的是从互联网(Web)上提取结构化的数据内容,所以,不能光提取爬虫线索,还要告知信息提取软件怎样提取新线索指向的网页上的结构化数据。总结一下,信息提取软件工具必须指导聚焦网络爬虫怎样提取网页上的超链接并怎样从超链接指向的新页面上提取数据。
举个例子,假设使用信息提取和聚焦网络爬虫软件工具MetaSeeker提取某论坛网站上的帖子,首先,进入论坛帖子列表页面,使用MetaStudio为帖子列表页面定义数据内容提取规则和超链接提取规则,后者提取帖子列表中的指向每个帖子页面的超链接,然后将提取规则交给DataScraper,它的聚焦网络爬虫除了将论坛帖子列表页面的数据提取下来外,还提取到大量的指向帖子具体内容的网页的超链接,这些网页属于另一个主题,即,提取帖子详细内容的主题,至此,该主题的信息结构还没有定义,只有定义了信息结构,聚焦网络爬虫顺着这些超链接爬行到帖子具体内容网页时才知道怎样提取数据。可见,操作员必须帮助聚焦网络爬虫布设爬行线索。
MetaStudio软件提供了一个便利工具,便于聚焦网络爬虫的线索布设。
承接上例,当DataScraper的聚焦网络爬虫提取到的线索(例如,指向帖子具体内容页面的线索)的信息结构还未定义时,MetaSeeker系统将这些线索的主题状态设置成torecognize,MetaStudio用户只要对这个主题进行识别,MetaStudio会从这些超链接中选择一个,加载指向的网页作为样本页面,用户就可为该主题定义信息结构和信息提取规则。主题识别操作在Theme List工作台上发起。首先要浏览工作台上的主题列表,找到状态是torecognize的主题。
在Theme List工作台上,浏览主题的方法有两种:
主题列表的Host列展示当前注册用户是否在当前连线的MetaSeeker系统服务器上存有某个主题对应的信息提取规则文件,如果是,则显示一个绿色图标
和字母Y,如果不是,则显示红色图标
和字母N,如果不确定,则显示红色图标
和字母U。
status列有下面三种状态:
除了浏览,还有两个右键弹出菜单项: