网页内容抓取软件DataScraper的原理是怎样的

问：如果我使用语义结构描述工具MetaStudio定义了两个信息结构A和B，A和B是相关的，也就是说在定义A的Clue Editor工作台上，定义了一个线索，用于提取符合信息结构B的网页地址（URL），例如，A是用于抓取某论坛的帖子列表，抓取帖子列表时将帖子详细内容页面的URL提取出来，而帖子详细内容页面的信息结构用B描述。按照我的理解，网页内容抓取软件DataScraper一开始先加载论坛帖子列表页面，根据信息结构A抓取帖子列表，每抓取一条帖子记录时，将帖子详细内容页面URL提取下来，马上打开帖子详细内容页面，使用信息结构B抓取帖子的详细内容，完成后再返回到信息结构A对应的页面，处理下一条记录，DataScraper是不是这样工作的？

答：网页抓取/数据抽取软件工具包MetaSeeker中的网络爬虫是定题爬虫或者聚焦爬虫，该网络爬虫在DataScraper软件工具中实现，执行信息提取任务时是一个主题一个主题做的，不会跨主题。也就是说，每发起一次信息提取任务，只抓取本主题的网页内容，例如，只提取A的，而不会提取B的，要等到A的执行完后，也可能要翻很多页，才可以发起提取B的网页内容，当然，可以另外运行一个DataScraper实例，同时提取B的网页内容。
举例来说，假设信息结构A是用于提取论坛列表的，主要是提取论坛帖子详细内容网页的URL对应的线索，也就是为B提取线索，一般一个论坛网站上有很多帖子，论坛列表是分页的，此时，在定义A信息结构时，需要在Clue Editor上定义一个inthread线索用于翻页。而在Bucket Editor工作台上定义帖子列表提取规则，定义一个信息属性用于提取和存储B页面的URL，这个信息属性具有clue特性，此时会在Clue Editor工作台上由MetaStudio自动生成一条线索记录，类型是Info，给它命名主题B。这样A的信息结构定义好了。接下来使用DataScraper抓取A的网页内容，会提取并存储很多属于主题B的线索，如果主题B的信息结构也定义好了，就可以使用DataScraper抓取B的网页内容了。可见，主题A和B的网页内容抓取是两个不同的操作。

GooSeeker

网页内容抓取软件DataScraper的原理是怎样的

切换语言