我需要采集的数据比较大量,请问如何在一台电脑上同时有2个或以上的打数机同时采集数据?如果屎同一个微博账号,我可以同时启用多少台打数机同时采集数据且不会被封号?

举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2020-7-27 00:11

沙发
Fuller 管理员 发表于 2020-7-26 16:47:15 | 只看该作者
如果要运行在多台电脑上,那么需要分别为每一台电脑申请一个微博账号,大家不要用相同的账号,否则很容易被封锁。

目前微博采集工具箱里面的采集工具运行速度比较慢,主要是爬被封锁。假设建立了微博关键词搜索采集任务,即使自己手工配置了更多爬虫群窗口,而不只是“启动采集”运行起来的2个爬虫群窗口,也不会给更多窗口分配任务,因为微博关键词搜索采集任务已经预设了,一台电脑只给一个爬虫群窗口分配采集任务,给另一个窗口分配打包任务。

但是,如果既建立了微博关键词搜索采集任务,又建立了评论采集任务,那么就有可能一个爬虫群窗口拿到搜索任务,另一个窗口拿到评论采集任务,其他窗口拿到打包任务。但是,这样被封锁的风险就提高了。

一天要定时看一下采集的情况,有没有登录状态失效了,有没有被封锁了,要及时采取应对措施
举报 使用道具
板凳
Fuller 管理员 发表于 2020-7-26 20:40:07 | 只看该作者
举报 使用道具
地板
AliceOu22 中级会员 发表于 2020-7-27 00:11:34 | 只看该作者
Fuller 发表于 2020-7-26 20:40
https://www.gooseeker.com/doc/thread-13241-1-1.html

哦哦!明白!谢谢!

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 12:49