|
论坛中盖楼很高的话,一般会分成很多页进行显示,假设一页20天,那么10000就有500个分页。你抓的网站是否这样?
这个社区中有很多翻页抓取的例子。但是在使用翻页抓取之前最好先观察一下:在浏览器中翻页看看,注意观察浏览器的地址输入栏,如果网址不断变化,比如,有个参数page=5,表示翻到5页,这种叫做有独立网址的。
有独立网址的话,你肯定能把10000个帖子一个不漏地抓下来。如果网址不变,那么必须让GooSeeker软件一口气翻页到底,要翻500页,中间不断掉,还是比较难保证的,万一网络出现超时,就断了,又得从头开始翻。
但是,如果有独立网址,如果中间断了,那么把断掉那个位置的网址添加进去生成一条线索,下次运行就从断掉的地方接上。
翻页抓取的案例参看:http://www.gooseeker.com/doc/thread-698-1-1.html |
|
共 4 个关于本帖的回复 最后回复于 2016-1-23 21:13