使用微博关键词进行爬虫群爬取,最大爬虫数为1,线索间等待超过5秒,一轮停歇时间超过15秒,仍然时常需要输入验证码。请问依据经验,做微博内容爬取时,什么样的设置能够避免输入验证码?
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2017-6-1 15:34

沙发
Fuller 管理员 发表于 2017-5-31 23:30:18 | 只看该作者
关键词搜索翻页抓取的时候,超过30多页,具体页码我记不得了,就会出验证码。

好在微博搜索有按照时间段搜索的功能,可以细到一小时,尽量不要超过30个分页。有些微博实在是太热,即使1小时也会超过30页,只能看着,出现验证码的时候手工打码
举报 使用道具
板凳
whuhzx 中级会员 发表于 2017-6-1 15:09:48 | 只看该作者
好的,谢谢。但是我之前已经分时段爬取了,每次大概就六七页,还是需要输入验证码...
举报 使用道具
地板
Fuller 管理员 发表于 2017-6-1 15:34:43 | 只看该作者
whuhzx 发表于 2017-6-1 15:09
好的,谢谢。但是我之前已经分时段爬取了,每次大概就六七页,还是需要输入验证码... ...

如果这么频繁要求打码,那么就是你的ip和微博账号已经被列入到监控名单了。这样做:
1,清理cookie,清理cookie的方法可以在教程首页搜索 清理cookie
2,最好换一下IP,比如,重拨ADSL猫
3,重启爬虫程序
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 怎样让GooSeeker分词工具使用宋体画词云图
  • 使用BERTopic时遇到的c-TF-IDF是什么?
  • gooseeker分词工具的命名实体识别和词形还
  • 怎样设置LDA模型的超参数alpha(α)和beta(
  • LDA主题分析模型到底是什么?

热门用户

GMT+8, 2026-5-31 08:04