1301#
12345wjl 新手上路 发表于 2021-11-12 17:12:28 | 只看该作者
wangyong 发表于 2021-11-12 16:34
在博主主页中选择全部后,在搜索框中进行搜索,搜索完后,把网址输入到博主主页采集工具
https://weibo. ...

好的,谢谢你
举报 使用道具
1302#
18555330731 新手上路 发表于 2021-11-16 16:47:44 | 只看该作者
请问想要采集某位博主含有某关键词的所有微博,但在博主页面搜索后,网址不变,还是和原状态一样,那这样怎么采集含关键词的微博呢?谢谢
举报 使用道具
1303#
内容分析应用 金牌会员 发表于 2021-11-16 17:38:42 | 只看该作者
18555330731 发表于 2021-11-16 16:47
请问想要采集某位博主含有某关键词的所有微博,但在博主页面搜索后,网址不变,还是和原状态一样,那这样怎 ...

搜索了之后, 网址里会出现key_word参数, 比如我在博主”头条新闻“搜索关键词”新冠“, 网址变成了这样:
https://weibo.com/breakingnews?r ... 6%96%B0%E5%86%A0#_0
举报 使用道具
1304#
elsieanddonut 初级会员 发表于 2021-11-28 13:41:16 | 只看该作者
您好,请问展开全文采集如何提升速度,已经设了两个爬虫,但是太慢了
举报 使用道具
1305#
Fuller 管理员 发表于 2021-11-28 17:06:50 | 只看该作者
elsieanddonut 发表于 2021-11-28 13:41
您好,请问展开全文采集如何提升速度,已经设了两个爬虫,但是太慢了

单一一个电脑,不能再提升速度了,不然,会被微博封号。应该用多个电脑,登录同一个集搜客账号,但是,各自登录不同的微博账号,这样,他们就能分担采集任务。

旗舰版初始是5台电脑,还可以另外购买电脑配额
举报 使用道具
1306#
HJ740113927 新手上路 发表于 2021-12-9 00:03:43 | 只看该作者
请问这个采集之后有附带签到地点信息吗
举报 使用道具
1307#
小蜜蜂测试161 高级会员 发表于 2021-12-9 09:05:18 | 只看该作者
HJ740113927 发表于 2021-12-9 00:03
请问这个采集之后有附带签到地点信息吗

原微博有显示的就会采集下来,没有的采集不到
举报 使用道具
1308#
Anaelle 新手上路 发表于 2021-12-9 21:17:54 | 只看该作者
请问采集数据不全是什么情况呢?我设置了起始时间是2021-04-01,结束时间是2021-06-01,但是打包的数据只有06-01的,甚至只有16:00-23:59的数据
举报 使用道具
1309#
Anaelle 新手上路 发表于 2021-12-10 03:29:57 | 只看该作者
Anaelle 发表于 2021-12-9 21:17
请问采集数据不全是什么情况呢?我设置了起始时间是2021-04-01,结束时间是2021-06-01,但是打包的数据只有 ...

看了一下日志好像是因为“因设置了限制翻页数:50,翻页已中断”,怎么才能取消这个限制呢?
举报 使用道具
1310#
Fuller 管理员 发表于 2021-12-10 09:22:45 | 只看该作者
Anaelle 发表于 2021-12-9 21:17
请问采集数据不全是什么情况呢?我设置了起始时间是2021-04-01,结束时间是2021-06-01,但是打包的数据只有 ...

如果微博特别热,那么要设置细分时间段,最小一小时。如果一个小时内的微博内容依然超过50页,还可以选择其他细分选项,但是,其他细分选项不是很准确,根据经验,可以先纯粹按照时间细分,然后再采集一遍,按照其他条件加上时间细分,最后,把两次采集的内容合并一下
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-4 20:15