我发现抓取微博过程中,翻页到第46页,就无法刷新了,始终显示:正在加载中,请稍等......网页不可见,大神有什么好的办法吗?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-11-25 13:40

沙发
shenzhenwan10 金牌会员 发表于 2016-11-25 09:14:53 | 只看该作者
这种情况可能和你的网速有关,还有可能微博到一定页数后就停止显示内容
对应的措施就是,尽量在好的网速下去抓取,定期清理缓存,cookie,更换ip
举报 使用道具
板凳
Fuller 管理员 发表于 2016-11-25 09:19:33 | 只看该作者
微博很不稳定,微博不给显示,就没有办法了。但是可以从这些方面注意:
1,网速足够快
2,同一台电脑上,DS打数机窗口不要运行太多,抓微博的窗口一个或者两个就够了
3,翻页速度进行控制,在会员中心的调度参数中设置“线索间等待最小时间”和“线索间等待最大时间”,而且前者要小于后者。这样设置以后,要运行爬虫群模式才有效。
4,DS打数机窗口越大越好,微博的内容只有落在可见区域才加载显示,屏幕大就会加载的多,就可以少滚屏
5,关键词搜索结果如果超过40页,就用高级搜索,设定时间段,尽量控制在40页以内,翻页多了会有验证码
6,一天内,一个微博账号下载的数量控制在2000以内,然后就清cookie,换微博账号
举报 使用道具
地板
larklee2015 初级会员 发表于 2016-11-25 13:40:00 | 只看该作者
收到,谢谢
非常感谢!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-3 21:00