我添加了一个关键词,把时间分段成每小时一段,根据我估计的数据量,今天一天就采集完了,现在我去检查,还早着呢,怎么会这么慢?可以打包的数据很少,是哪里出错了?新浪微博做了封锁吗?
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2020-3-5 18:13

沙发
Fuller 管理员 发表于 2020-3-5 18:08:11 | 只看该作者
今天确实发现新浪微博网站的行为有些变化,如果你仔细观察就会发现,翻页到50页以后又会从第一页开始。永远循环不完。由于采集下来的数据都是重复的,所以,后面的数据都重复过滤了。

针对这种情况,集搜客开发团队在今天下午4点的时候修改了微博采集工具箱的调度参数,对翻页次数做了限制。现在你把集搜客网络爬虫软件停下来,重新运行,爬虫就会用上最新的调度参数,就会解决死循环的问题
举报 使用道具
板凳
Fuller 管理员 发表于 2020-3-5 18:13:40 | 只看该作者
如果你用的是快捷采集,也就是下面截图上的不是绿色的那些微博采集工具,比如,微博关键词搜索结果采集 ,因为用户可以自己选择翻页数量,使用时千万要注意,要选择翻页次数,不能选择全部。否则也会陷入死循环。上一贴我说的修改,是修改微博采集工具箱中的工具,就是那些绿色背景的。不是绿色背景的是普通的快捷采集,要设置好翻页次数




举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 04:51