在采集文博的评论的过程中,还没有采完,就出现打数机停止采集的情况

举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2016-7-20 21:25

沙发
何波波 金牌会员 发表于 2016-7-20 16:52:02 | 只看该作者
微博会限制采集评论或者转发,翻页到中间就不能继续的访问了。另外,微博账号也是有等级的,不同的等级触发反爬虫的几率不同,爬微博数据要定期的更换微博账号,并且清理浏览器cookies。http://www.gooseeker.com/doc/thread-1872-1-1.html
举报 使用道具
板凳
Fuller 管理员 发表于 2016-7-20 21:25:20 | 只看该作者
1,为了反爬,爬微博最好用爬虫群模式,在爬虫罗盘中设定这个任务的调度参数,每爬一页,增加一个随机的停顿。
2,如果使用我们的微博采集工具箱(http://www.gooseeker.com/land/weibo.html ),这个工具箱都把参数调试好了,只需关注第三点
3,控制每天每个微博账号采集的数量:控制在2000次点击以内。然后就换微博账号,注意使用以下步骤确保账号换得清爽:
a,在微博上登出
b,用火狐浏览器的功能清除cookie
c,重启火狐和GooSeeker爬虫
d,访问微博并登录
e,开始新的采集
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 怎样让GooSeeker分词工具使用宋体画词云图
  • 使用BERTopic时遇到的c-TF-IDF是什么?
  • gooseeker分词工具的命名实体识别和词形还
  • 怎样设置LDA模型的超参数alpha(α)和beta(
  • LDA主题分析模型到底是什么?

热门用户

GMT+8, 2026-5-30 23:13