4 14517

抓取一个高楼帖子

gdzxLyzh 于 2016-1-23 20:20 发表 [复制链接]
本帖最后由 ym 于 2016-2-2 10:14 编辑

常见问题 > 制作规则—常见问题导航 > 翻页采集 > 楼层很高的论坛帖子翻页抓取技巧

想抓取一个高楼帖子 ,大概10000楼。
要求抓取楼主及帖子中某2,3个ID的全部发言,用集搜客能做到吗?
能否说下大概思路?
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2016-1-23 21:13

Fuller 管理员 发表于 2016-1-23 20:40:10 | 显示全部楼层
论坛中盖楼很高的话,一般会分成很多页进行显示,假设一页20天,那么10000就有500个分页。你抓的网站是否这样?

这个社区中有很多翻页抓取的例子。但是在使用翻页抓取之前最好先观察一下:在浏览器中翻页看看,注意观察浏览器的地址输入栏,如果网址不断变化,比如,有个参数page=5,表示翻到5页,这种叫做有独立网址的。

有独立网址的话,你肯定能把10000个帖子一个不漏地抓下来。如果网址不变,那么必须让GooSeeker软件一口气翻页到底,要翻500页,中间不断掉,还是比较难保证的,万一网络出现超时,就断了,又得从头开始翻。

但是,如果有独立网址,如果中间断了,那么把断掉那个位置的网址添加进去生成一条线索,下次运行就从断掉的地方接上。

翻页抓取的案例参看:http://www.gooseeker.com/doc/thread-698-1-1.html
举报 使用道具
gdzxLyzh 初级会员 发表于 2016-1-23 20:55:13 | 显示全部楼层
http://www.jiaoyizhe.com/thread-1685637-1-1.html
http://www.jiaoyizhe.com/thread-1685637-2-1.html

这种论坛, 上面网址是第一页第二页。  这个应该是有独立网址吧?
举报 使用道具
xandy 论坛元老 发表于 2016-1-23 21:13:23 | 显示全部楼层
QQ图片20160123211309.png

是独立的网址。
举报 使用道具
gdzxLyzh 初级会员 发表于 2016-1-23 21:13:43 | 显示全部楼层
OK!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 05:14