快捷导航
4 3042

抓取一个高楼帖子

gdzxLyzh 于 2016-1-23 20:20 发表 [复制链接]
本帖最后由 ym 于 2016-2-2 10:14 编辑

常见问题 > 制作规则—常见问题导航 > 翻页采集 > 楼层很高的论坛帖子翻页抓取技巧

想抓取一个高楼帖子 ,大概10000楼。
要求抓取楼主及帖子中某2,3个ID的全部发言,用集搜客能做到吗?
能否说下大概思路?
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2016-1-23 21:13

Fuller 管理员 发表于 2016-1-23 20:40:10 | 显示全部楼层
论坛中盖楼很高的话,一般会分成很多页进行显示,假设一页20天,那么10000就有500个分页。你抓的网站是否这样?

这个社区中有很多翻页抓取的例子。但是在使用翻页抓取之前最好先观察一下:在浏览器中翻页看看,注意观察浏览器的地址输入栏,如果网址不断变化,比如,有个参数page=5,表示翻到5页,这种叫做有独立网址的。

有独立网址的话,你肯定能把10000个帖子一个不漏地抓下来。如果网址不变,那么必须让GooSeeker软件一口气翻页到底,要翻500页,中间不断掉,还是比较难保证的,万一网络出现超时,就断了,又得从头开始翻。

但是,如果有独立网址,如果中间断了,那么把断掉那个位置的网址添加进去生成一条线索,下次运行就从断掉的地方接上。

翻页抓取的案例参看:http://www.gooseeker.com/doc/thread-698-1-1.html
举报 使用道具
gdzxLyzh 初级会员 发表于 2016-1-23 20:55:13 | 显示全部楼层
http://www.jiaoyizhe.com/thread-1685637-1-1.html
http://www.jiaoyizhe.com/thread-1685637-2-1.html

这种论坛, 上面网址是第一页第二页。  这个应该是有独立网址吧?
举报 使用道具
xandy 论坛元老 发表于 2016-1-23 21:13:23 | 显示全部楼层
QQ图片20160123211309.png

是独立的网址。
举报 使用道具
gdzxLyzh 初级会员 发表于 2016-1-23 21:13:43 | 显示全部楼层
OK!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 摘取泉港区政府工作报告中的数字遇到的问题
  • 调度设置参数说明
  • 集搜客网络爬虫软件实现自动网页截屏
  • 怎样使用搜狐新闻搜索列表快捷工具抓取关键
  • 用于清洗文本内容的Excel函数公式

热门用户

GMT+8, 2019-8-20 00:17