1141#
ykl1031300815 新手上路 发表于 2020-9-4 14:39:29 | 只看该作者
Fuller 发表于 2020-9-4 12:22
用的是哪个工具?博主主页采集?还是关键词搜索采集?

关键词
举报 使用道具
1142#
damdadi 新手上路 发表于 2020-9-4 14:46:38 | 只看该作者
本帖最后由 damdadi 于 2020-9-4 14:53 编辑

请问,抓取全部微博内容后,很多条微博文字太多没有抓全,最后几个字是展开全文c,这个问题怎么解决?
举报 使用道具
1143#
小蜜蜂测试162 高级会员 发表于 2020-9-4 15:01:50 | 只看该作者

你加一下这个QQ群:813874590
把相关截图发一下
举报 使用道具
1144#
Fuller 管理员 发表于 2020-9-4 15:03:00 | 只看该作者

要预先在集搜客浏览器中登录微博,正在采集过程中,不能最小化爬虫窗口,还没有采集完成的时候,不要关闭窗口。可以加入qq群,让技术支持协助诊断一下:661795153
举报 使用道具
1145#
小蜜蜂测试162 高级会员 发表于 2020-9-4 15:03:16 | 只看该作者
damdadi 发表于 2020-9-4 14:46
请问,抓取全部微博内容后,很多条微博文字太多没有抓全,最后几个字是展开全文c,这个问题怎么解决? ...

把有展开全文字样的博文独立链接找到后,添加到展开全文的快捷采集:https://www.gooseeker.com/res/da ... 8%E9%87%87%E9%9B%86
举报 使用道具
1146#
Fuller 管理员 发表于 2020-9-4 15:04:20 | 只看该作者
damdadi 发表于 2020-9-4 14:46
请问,抓取全部微博内容后,很多条微博文字太多没有抓全,最后几个字是展开全文c,这个问题怎么解决? ...

在excel中,把这些网址过滤出来,添加到这个快捷采集工具中,会展开采集全文:https://www.gooseeker.com/res/datadiy.html?category=%E7%83%AD%E9%97%A8%E7%BD%91%E7%AB%99&web=%E6%96%B0%E6%B5%AA%E5%BE%AE%E5%8D%9A&rule=%E5%BE%AE%E5%8D%9A%E5%8D%9A%E6%96%87%E5%B1%95%E5%BC%80%E5%85%A8%E9%83%A8%E9%87%87%E9%9B%86
举报 使用道具
1147#
pighill 新手上路 发表于 2020-9-7 09:10:56 | 只看该作者
请问MAC电脑在终端如何手动打开多个窗口爬数据?我要爬500个博主信息,是否开的窗口越多,完成的越快呢?
举报 使用道具
1148#
Fuller 管理员 发表于 2020-9-7 09:25:22 | 只看该作者
pighill 发表于 2020-9-7 09:10
请问MAC电脑在终端如何手动打开多个窗口爬数据?我要爬500个博主信息,是否开的窗口越多,完成的越快呢? ...

采集微博的时候,我们特意把速度调慢了,因为很容易被微博反爬。通常一台电脑一天采集量不要超过1万个网页。如果你开多个爬虫群窗口,微博采集任务比较多的时候,确实会更多窗口一起爬数据,但是网络爬虫很可能会被封锁,整个速度都受影响了。

如果任务特别多,最好分散到多台电脑同时运行,每台电脑登录微博的账号不用重用,各自一个账号,但是集搜客账号是同一个,那么这些电脑就会一起执行相同的任务。专业版可以同时运行2台,旗舰版可以同时运行5台,还可以加电脑。
举报 使用道具
1149#
wangyong 版主 发表于 2020-9-7 09:32:10 | 只看该作者
pighill 发表于 2020-9-7 09:10
请问MAC电脑在终端如何手动打开多个窗口爬数据?我要爬500个博主信息,是否开的窗口越多,完成的越快呢? ...


在爬虫软件的右上角启动打数机后,在配置里可以运行多个爬虫群窗口。

但是微博工具的调度为了应对反爬是特殊设置的,一台电脑无论开多少个窗口都会只有一个窗口运行采集,因为同时采集的窗口多了会遇到反爬封锁

如果想要加快采集速度,需要在多台电脑上运行爬虫窗口。
举报 使用道具
1150#
pighill 新手上路 发表于 2020-9-7 09:48:16 | 只看该作者
Fuller 发表于 2020-9-7 09:25
采集微博的时候,我们特意把速度调慢了,因为很容易被微博反爬。通常一台电脑一天采集量不要超过1万个网 ...

好的,谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 22:45