我需要采集的数据比较大量,请问如何在一台电脑上同时有2个或以上的打数机同时采集数据?如果屎同一个微博账号,我可以同时启用多少台打数机同时采集数据且不会被封号?

举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2020-7-27 00:11

沙发
Fuller 管理员 发表于 2020-7-26 16:47:15 | 只看该作者
如果要运行在多台电脑上,那么需要分别为每一台电脑申请一个微博账号,大家不要用相同的账号,否则很容易被封锁。

目前微博采集工具箱里面的采集工具运行速度比较慢,主要是爬被封锁。假设建立了微博关键词搜索采集任务,即使自己手工配置了更多爬虫群窗口,而不只是“启动采集”运行起来的2个爬虫群窗口,也不会给更多窗口分配任务,因为微博关键词搜索采集任务已经预设了,一台电脑只给一个爬虫群窗口分配采集任务,给另一个窗口分配打包任务。

但是,如果既建立了微博关键词搜索采集任务,又建立了评论采集任务,那么就有可能一个爬虫群窗口拿到搜索任务,另一个窗口拿到评论采集任务,其他窗口拿到打包任务。但是,这样被封锁的风险就提高了。

一天要定时看一下采集的情况,有没有登录状态失效了,有没有被封锁了,要及时采取应对措施
举报 使用道具
板凳
Fuller 管理员 发表于 2020-7-26 20:40:07 | 只看该作者
举报 使用道具
地板
AliceOu22 中级会员 发表于 2020-7-27 00:11:34 | 只看该作者
Fuller 发表于 2020-7-26 20:40
https://www.gooseeker.com/doc/thread-13241-1-1.html

哦哦!明白!谢谢!

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • LDA主题分析模型到底是什么?
  • top2vec话题发现原理和使用方法
  • 将文本聚类和LDA分析模块安装在数据盘上的
  • GooSeeker分词软件的tf-idf算法和特征词选
  • 边表格式和矩阵格式的共词矩阵表有什么区别

热门用户

GMT+8, 2026-4-9 00:05