981#
Fuller 管理员 发表于 2020-1-2 16:39:57 | 只看该作者
Zendralyn 发表于 2020-1-2 16:18
那请问会出现反爬现象吗?因为我爬取的数量很多

为了能稳定运行,通常这样安排:
1,用一个微博账号在爬虫浏览器上登录微博。这个账号一天爬取的网页数量不要超过1万个
如果使用微博采集工具箱,我们专门做了调速,速度比较慢,一台电脑不会超过1万个/天

2,如果需要短时间内爬更多微博,那么注册多个微博账号,用多台电脑,一台登录一个微博账号。购买旗舰版可以同时运行5台电脑,还可以单独购买电脑配合,购买专业版,可以运行2台电脑,不能单独增加配额。
举报 使用道具
982#
funfunfun 中级会员 发表于 2020-1-3 10:40:01 | 只看该作者
怎样才能获取博文的定位数据呢(也就是经纬度
举报 使用道具
983#
Zendralyn 初级会员 发表于 2020-1-9 08:00:46 | 只看该作者
爬取微博话题内容,话题有效,但是在爬取最开始会出现需要登录微博账号,我是在搜狐浏览器微博登录的状态下,点击启动采集,但是总是无法爬取,请问怎么解决?
举报 使用道具
984#
Fuller 管理员 发表于 2020-1-9 08:50:54 | 只看该作者
Zendralyn 发表于 2020-1-9 08:00
爬取微博话题内容,话题有效,但是在爬取最开始会出现需要登录微博账号,我是在搜狐浏览器微博登录的状态下 ...

要在集搜客浏览器登录微博
举报 使用道具
985#
Zendralyn 初级会员 发表于 2020-1-9 14:52:45 | 只看该作者
我现在用了集搜客浏览器登录微博,还是一样的状况无法爬取。
举报 使用道具
986#
Zendralyn 初级会员 发表于 2020-1-9 15:08:30 | 只看该作者
Fuller 发表于 2020-1-9 08:50
要在集搜客浏览器登录微博

不管怎样都是未执行采集任务
举报 使用道具
987#
Fuller 管理员 发表于 2020-1-9 15:30:54 | 只看该作者
Zendralyn 发表于 2020-1-9 15:08
不管怎样都是未执行采集任务

集搜客网络爬虫软件刚开始运行的时候,要去输入账号和密码。 集搜客网站也会要求输入账号和密码。这两个账号是同一个吗?如果两个账号不同,那么就拿不到采集任务
举报 使用道具
988#
Fuller 管理员 发表于 2020-1-9 15:32:35 | 只看该作者
Zendralyn 发表于 2020-1-9 15:08
不管怎样都是未执行采集任务

我看到你的账号很久以前就注册了,以前使用正常吗?可以加入qq群 830157068 ,在那里有技术支持帮你解决一下
举报 使用道具
989#
2108523618005 新手上路 发表于 2020-1-12 16:33:39 | 只看该作者
为什么同时爬取多个网页有许多网页评论信息根本加载不出来?
举报 使用道具
990#
Fuller 管理员 发表于 2020-1-12 17:41:03 | 只看该作者
2108523618005 发表于 2020-1-12 16:33
为什么同时爬取多个网页有许多网页评论信息根本加载不出来?

同时运行了几个爬虫窗口?微博对网络速度和电脑性能要求挺高的,如果微博中又有大量图片和视频,就更慢了。一个微博往往有很多评论,只爬一个微博都要很长时间,一个一个地添加微博网址吧。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-1 15:26