怎样为网络爬虫抽取到的新线索定义信息提取规则

为当前网页定义信息结构,为其中某个信息属性配置了clue特性,目的是提取该链接所指的页面的内容,怎么定义链接所指页面的信息结构呢?

在MetaStudio上的完整操作过程是这样的:首先在Bucket Editor工作台上定义当前信息结构,设置某个信息属性clue特性,然后将HTML页面上的某个A元素的href属性节点映射到这个信息属性上,然后转到Clue Editor工作台(这一步一定不要遗忘),会看到系统自动地创建了一条类型是Info的线索记录,需要为该线索取一个主题名,系统自动将当前主题名填写到编辑框中,一般情况下需要取一个新名,表示与当前信息结构不同的信息结构。

然后使用DataScraper为当前主题提取信息,DataScraper会将网页上的A元素的href属性的值抽取出来,产生一个完整的URL,指向一个新网页,DataScraper会为这个URL创建一个新线索。

如果要提取这个新页面的信息,需要为它定义信息结构,在MetaStudio的Theme List工作台上,搜索这个新页面的主题名,找到后选中它,然后点击鼠标右键菜单“识别”,MetaStudio会自动将这个新页面加载上来,用户在Bucket Editor和Clue Editor工作台上为它定义信息结构和线索提取规则即可。

更详细的操作过程记录于MetaStudio操作实例手册中

注意,定义当前信息结构时,将某个信息属性设置成clue类型后,会在Clue Editor工作台上自动产生一个Info类型的线索,一定要记住为这条线索记录设置一个新的主题名,一般情况下不应该与当前主题名一样,如果一样的话,表示clue对应的下一个页面和当前页面的信息结构一致,虽然可以这样操作,但是实际情况一般不是这样。

定义当前信息结构-提取网站信息-识别并定义新信息结构-提取更多网站信息,是一个持续的逐渐深入采集网站内容的过程,例如,当前信息结构是为一个论坛的帖子列表页定义的,具有clue特性的信息属性是用于提取帖子详细内容的,帖子详细内容页面的信息结构肯定与帖子列表页面的不一样,所以,需要两个不同的主题名