新浪评论抓取,抓取评论页面会重复

我现在也在抓取新浪有关动车追尾的评论。有的重复是因为在翻页抓取时,在抓到一定页数时,新浪页面上会显示“正在读取帖子数据...”,这时DataScraper抓取时,下面页数是一直在变化,但由于页面内容还没有变化,因为一直在显示“正在读取帖子数据...”,这时抓下来的数据还是原来那个页面的内容,而不是最新页面的内容,这样最新页面的内容就会被漏掉。因而抓下来的数据会有重复。。
不知道该怎么解决呀
我的主题名是“sunxhiner_sina_动车追尾”,你们可以试验一下。用查重软件检查,发现会有好多重复的xml文件,内容一模一样。我也已经设置了积极和延长模式。。不知有没有一个好一点的解决方案

这种重复只能在处理抓取结果的时候过滤掉

当这种情况发生时,网页上还是有可抓取的内容,所以,设置延长模式等也没有办法,可以每抓取一页多等待一段时间,请参照《周期性网页抓取调度文件》,设置minIdle和maxIdle,可以缓解重复问题,但是抓取速度变慢了。 最后,在处理抓取结果是,可以用程序将重复的过滤掉