连续翻页抓取网站信息中断了怎么办？

在很多网站上，大量信息分成多页进行显示，例如，购物网站的商品列表，网站信息抓取软件工具包MetaSeeker使用一种有效的翻页抓取技术，可以应对各种翻页，例如，通过javascript实现的翻页、通过发送POST消息实现的翻页、点击页码数字进行的翻页、点击“下一页”链接或者图片链接进行的翻页，MetaSeeker使用一致的方法进行处理，能够一次性从头翻到尾，但是，万一在某个时刻网络拥塞造成中断，不得不从头再次翻起。存在多种应对中断的措施，例如，使用MetaSeeker时，可以将每一页的超链接的地址URL抓取下来，存成另外一个线索，这样就不怕中断了，但是，生成的线索很多，有多少页就有多少个线索。相反，一次性翻完的方法只会有一个线索，翻页时不生成新线索。MetaSeeker V4.10.0版本，特别加强了HTTP通信的可靠性，无论是下载目标网页，还是与MetaSeeker服务器通信，都实现了重发机制，将该机制应用于翻页抓取，可以有效减少中断的概率。

周期性网站抓取调度文件增加了两个参数resumePageLoad和resumeMaxCount，前者是true时，将打开重新下载开关，后者规定重新尝试次数，无论是翻页抓取还是单页抓取，都可以尝试重新下载。但是，并不是所有网页能够重新下载，例如，AJAX网站通过发送HTTP消息异步刷新网页内容，该类网页无法有效重下载或者回退；再如，通过发送HTTP POST消息下载的网页，无法有效地重新下载，因为在重新下载时Firefox将弹出一个alert提示框，此时，DataScraper简单地关闭了该提示框，POST消息并未发送。

参数的详细使用方法参见周期性网站抓取调度文件

GooSeeker

连续翻页抓取网站信息中断了怎么办？

切换语言