我发现抓取微博过程中,翻页到第46页,就无法刷新了,始终显示:正在加载中,请稍等......网页不可见,大神有什么好的办法吗?

困难.JPG (3.32 KB, 下载次数: 590)

困难.JPG
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-11-25 13:40

沙发
shenzhenwan10 金牌会员 发表于 2016-11-25 09:14:53 | 只看该作者
这种情况可能和你的网速有关,还有可能微博到一定页数后就停止显示内容
对应的措施就是,尽量在好的网速下去抓取,定期清理缓存,cookie,更换ip
举报 使用道具
板凳
Fuller 管理员 发表于 2016-11-25 09:19:33 | 只看该作者
微博很不稳定,微博不给显示,就没有办法了。但是可以从这些方面注意:
1,网速足够快
2,同一台电脑上,DS打数机窗口不要运行太多,抓微博的窗口一个或者两个就够了
3,翻页速度进行控制,在会员中心的调度参数中设置“线索间等待最小时间”和“线索间等待最大时间”,而且前者要小于后者。这样设置以后,要运行爬虫群模式才有效。
4,DS打数机窗口越大越好,微博的内容只有落在可见区域才加载显示,屏幕大就会加载的多,就可以少滚屏
5,关键词搜索结果如果超过40页,就用高级搜索,设定时间段,尽量控制在40页以内,翻页多了会有验证码
6,一天内,一个微博账号下载的数量控制在2000以内,然后就清cookie,换微博账号
举报 使用道具
地板
larklee2015 初级会员 发表于 2016-11-25 13:40:00 | 只看该作者
收到,谢谢
非常感谢!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-17 03:49