1151#
Fuller 管理员 发表于 2020-9-7 09:25:22 | 只看该作者
pighill 发表于 2020-9-7 09:10
请问MAC电脑在终端如何手动打开多个窗口爬数据?我要爬500个博主信息,是否开的窗口越多,完成的越快呢? ...

采集微博的时候,我们特意把速度调慢了,因为很容易被微博反爬。通常一台电脑一天采集量不要超过1万个网页。如果你开多个爬虫群窗口,微博采集任务比较多的时候,确实会更多窗口一起爬数据,但是网络爬虫很可能会被封锁,整个速度都受影响了。

如果任务特别多,最好分散到多台电脑同时运行,每台电脑登录微博的账号不用重用,各自一个账号,但是集搜客账号是同一个,那么这些电脑就会一起执行相同的任务。专业版可以同时运行2台,旗舰版可以同时运行5台,还可以加电脑。
举报 使用道具
1152#
wangyong 版主 发表于 2020-9-7 09:32:10 | 只看该作者
pighill 发表于 2020-9-7 09:10
请问MAC电脑在终端如何手动打开多个窗口爬数据?我要爬500个博主信息,是否开的窗口越多,完成的越快呢? ...


在爬虫软件的右上角启动打数机后,在配置里可以运行多个爬虫群窗口。

但是微博工具的调度为了应对反爬是特殊设置的,一台电脑无论开多少个窗口都会只有一个窗口运行采集,因为同时采集的窗口多了会遇到反爬封锁

如果想要加快采集速度,需要在多台电脑上运行爬虫窗口。
举报 使用道具
1153#
pighill 新手上路 发表于 2020-9-7 09:48:16 | 只看该作者
Fuller 发表于 2020-9-7 09:25
采集微博的时候,我们特意把速度调慢了,因为很容易被微博反爬。通常一台电脑一天采集量不要超过1万个网 ...

好的,谢谢
举报 使用道具
1154#
pighill 新手上路 发表于 2020-9-7 09:49:19 | 只看该作者
wangyong 发表于 2020-9-7 09:32
在爬虫软件的右上角启动打数机后,在配置里可以运行多个爬虫群窗口。

但是微博工具的调度为了应对反爬 ...

谢谢~我还是慢慢来比较稳妥
举报 使用道具
1155#
陈陈不忧桑 金牌会员 发表于 2020-9-8 16:23:19 | 只看该作者
你好,我想问一下,用【微博采集工具箱】爬微博关键词相关数据,打包下载的数据里搜索条件一列没有数据是为什么呀?怎么解决呢?昨天爬的时候这一列还是有数据的,今天就没了。这是为什么呀?怎么解决呢?
举报 使用道具
1156#
Fuller 管理员 发表于 2020-9-8 16:31:22 | 只看该作者
陈陈不忧桑 发表于 2020-9-8 16:23
你好,我想问一下,用【微博采集工具箱】爬微博关键词相关数据,打包下载的数据里搜索条件一列没有数据是为 ...

我让技术人员测试一下
举报 使用道具
1157#
王建国 高级会员 发表于 2020-9-8 17:45:48 | 只看该作者
陈陈不忧桑 发表于 2020-9-8 16:23
你好,我想问一下,用【微博采集工具箱】爬微博关键词相关数据,打包下载的数据里搜索条件一列没有数据是为 ...

这个问题修复了,重新添加任务采集就能采到搜索条件了
举报 使用道具
1158#
ghkd8566 初级会员 发表于 2020-10-21 00:22:23 | 只看该作者
[img]我是外国人所以我的写汉语不好。请您理解一下我吧。
下次的时候下载微博数据没问题。但是现在我下载微博数据的时候不能下载数据。微博采集工具正在采集中。但是点击打包时候就出现没有可打包的数据。我已经购买旗舰版1个月。所以云数据库导出量:无限量。

您可以帮我解决这问题吧。
谢谢。

举报 使用道具
1159#
ghkd8566 初级会员 发表于 2020-10-21 00:25:15 | 只看该作者
我是外国人所以我的写汉语不好。请您理解一下我吧。
下次的时候下载微博数据没问题。但是现在我下载微博数据的时候不能下载数据。微博采集工具正在采集中。但是点击打包时候就出现没有可打包的数据。我已经购买旗舰版1个月。所以云数据库导出量:无限量。

您可以帮我解决这问题吧。
谢谢。
举报 使用道具
1160#
Fuller 管理员 发表于 2020-10-21 08:55:47 | 只看该作者
ghkd8566 发表于 2020-10-21 00:25
我是外国人所以我的写汉语不好。请您理解一下我吧。
下次的时候下载微博数据没问题。但是现在我下载微博数 ...

我安排管理员检查一下后台日志
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 07:59