连续翻页抓取网站信息中断了怎么办?

在很多网站上,大量信息分成多页进行显示,例如,购物网站的商品列表,网站信息抓取软件工具包MetaSeeker使用一种有效的翻页抓取技术,可以应对各种翻页,例如,通过javascript实现的翻页、通过发送POST消息实现的翻页、点击页码数字进行的翻页、点击“下一页”链接或者图片链接进行的翻页,MetaSeeker使用一致的方法进行处理,能够一次性从头翻到尾,但是,万一在某个时刻网络拥塞造成中断,不得不从头再次翻起。存在多种应对中断的措施,例如,使用MetaSeeker时,可以将每一页的超链接的地址URL抓取下来,存成另外一个线索,这样就不怕中断了,但是,生成的线索很多,有多少页就有多少个线索。相反,一次性翻完的方法只会有一个线索,翻页时不生成新线索。MetaSeeker V4.10.0版本,特别加强了HTTP通信的可靠性,无论是下载目标网页,还是与MetaSeeker服务器通信,都实现了重发机制,将该机制应用于翻页抓取,可以有效减少中断的概率。

周期性网站抓取调度文件增加了两个参数resumePageLoad和resumeMaxCount,前者是true时,将打开重新下载开关,后者规定重新尝试次数,无论是翻页抓取还是单页抓取,都可以尝试重新下载。但是,并不是所有网页能够重新下载,例如,AJAX网站通过发送HTTP消息异步刷新网页内容,该类网页无法有效重下载或者回退;再如,通过发送HTTP POST消息下载的网页,无法有效地重新下载,因为在重新下载时Firefox将弹出一个alert提示框,此时,DataScraper简单地关闭了该提示框,POST消息并未发送。

参数的详细使用方法参见周期性网站抓取调度文件