怎样使用网页抓取/数据抽取软件工具MetaSeeker提取论坛新帖子?

MetaSeeker能够判断是否是新内容

在论坛、博客、黄页、电子商务网站上都有内容列表页,而且这个页面内容是动态的,随着用户发新帖子或者发布新商品,这个页面列表将变化,而且重新分页。在DataScraper内部有一个缺省参数:内容重复阈值,设置成80%,也就是说当DataScraper提取列表页的内容时,如果发现超过80%的内容是重复的,DataScraper就停止抽取,采用这种机制,DataScraper可以提取新内容,如,论坛新帖子。

需要说明的是,DataScraper并不能通过比较论坛帖子的内容文字确定是否是新内容,而是假设在论坛列表页上除了抽取列表内容以外还抽取帖子的URL地址,这个URL是帖子详细内容的页面,也就是用户点击帖子列表中某一行后进入的页面,通过判断抽取到的URL是否已经记录在DataStore服务器中决定是否是新内容。所以,如果不抽取URL信息,将无法判断。