延长模式下线索抓不全

在对于和讯和其他网站抓取时,由于定义规则的时候用到延长模式,在抓取时会出现,线索抓不全的现象。比如本来一个线索有1000页,最后只抓了40页就直接跳到下个线索了,而且也不报错,不知道这个问题该怎么解决。(配置文件中已经写了关于延长模式的语句!)请求指教!

翻页抓取中断

翻页抓取很容易中断,有各种原因,比如,网络暂时性故障,目标网站不运行翻那么多页。有时候,由于网络速度较慢,而显示页码的那部分网页很久也显示不出来,就会找不到页码而中断。

很多网站的翻页页码都用普通的超链接显示,每个超链接都有独立的IP地址,那么抓取的时候就可以不选择inthread选项,为每个页码都产生一个线索,这样可以避免翻页中断问题。但是抓取速度会变慢