怎样为网络爬虫抽取到的新线索定义信息提取规则

为当前网页定义信息结构，为其中某个信息属性配置了clue特性，目的是提取该链接所指的页面的内容，怎么定义链接所指页面的信息结构呢？

在MetaStudio上的完整操作过程是这样的：首先在Bucket Editor工作台上定义当前信息结构，设置某个信息属性的clue特性，然后将HTML页面上的某个A元素的href属性节点映射到这个信息属性上，然后转到Clue Editor工作台（这一步一定不要遗忘），会看到系统自动地创建了一条类型是Info的线索记录，需要为该线索取一个主题名，系统自动将当前主题名填写到编辑框中，一般情况下需要取一个新名，表示与当前信息结构不同的信息结构。

然后使用DataScraper为当前主题提取信息，DataScraper会将网页上的A元素的href属性的值抽取出来，产生一个完整的URL，指向一个新网页，DataScraper会为这个URL创建一个新线索。

如果要提取这个新页面的信息，需要为它定义信息结构，在MetaStudio的Theme List工作台上，搜索这个新页面的主题名，找到后选中它，然后点击鼠标右键菜单“识别”，MetaStudio会自动将这个新页面加载上来，用户在Bucket Editor和Clue Editor工作台上为它定义信息结构和线索提取规则即可。

更详细的操作过程记录于MetaStudio操作实例手册中

注意，定义当前信息结构时，将某个信息属性设置成clue类型后，会在Clue Editor工作台上自动产生一个Info类型的线索，一定要记住为这条线索记录设置一个新的主题名，一般情况下不应该与当前主题名一样，如果一样的话，表示clue对应的下一个页面和当前页面的信息结构一致，虽然可以这样操作，但是实际情况一般不是这样。

定义当前信息结构－提取网站信息－识别并定义新信息结构－提取更多网站信息，是一个持续的逐渐深入采集网站内容的过程，例如，当前信息结构是为一个论坛的帖子列表页定义的，具有clue特性的信息属性是用于提取帖子详细内容的，帖子详细内容页面的信息结构肯定与帖子列表页面的不一样，所以，需要两个不同的主题名

GooSeeker

怎样为网络爬虫抽取到的新线索定义信息提取规则

切换语言