我搜索“二胎”相关的热点微博,每个月大概有20多页,就是400多条微博,每个月生成一个网址后,多网址爬取,爬取出来的数据少很多,不知道什么原因。
比如2016年1月份,只有17条,搜索出来有26页,500多条

举报 使用道具
| 回复

共 47 个关于本帖的回复 最后回复于 2020-12-24 15:24

来自 48#
wangyong 版主 发表于 2020-12-24 15:24:38 | 只看该作者
微博关键词搜索热点数据的采集方法:
下载数据管家:https://www.gooseeker.com/pro/gooseeker.html,进入集搜客微博工具箱微博关键词搜索工具

输入要采集的关键词和时间范围后,点击高级设置选择热门类型,这样采集到的微博就全是热门类型了

数据展示:

举报 使用道具
沙发
Fuller 管理员 发表于 2019-11-23 11:24:51 | 只看该作者
每个月的网址是怎样的?发一个出来看看
举报 使用道具
板凳
Fuller 管理员 发表于 2019-11-23 11:59:14 | 只看该作者
你使用的是这个微博关键词采集工具吗? https://www.gooseeker.com/res/softdetail_4.html
还是你自己做的采集规则?
举报 使用道具
地板
Fuller 管理员 发表于 2019-11-23 12:15:17 | 只看该作者
刚才我用关键词搜索快捷采集工具采集了一次,没有分日期,因为有翻页50页限制,采集到994条数据。如果分时间段,可以采集到更多
举报 使用道具
5#
心诚泽霖 初级会员 发表于 2019-11-23 19:57:26 | 只看该作者
我就是在快捷操作里输入多网址的,因为我只想要热点微博,网址如下
https://s.weibo.com/weibo/%25E4%25BA%258C%25E8%2583%258E?q=%E4%BA%8C%E8%83%8E&xsort=hot&suball=1&timescope=custom:2016-01-01-0:2016-02-01=0&Refer=g
每个月有一个像上面这样的网址
举报 使用道具
6#
Fuller 管理员 发表于 2019-11-23 20:06:19 | 只看该作者
心诚泽霖 发表于 2019-11-23 19:57
我就是在快捷操作里输入多网址的,因为我只想要热点微博,网址如下
https://s.weibo.com/weibo/%25E4%25BA% ...

你要微博关键词快捷采集工具吗?还是自己的规则?
举报 使用道具
7#
心诚泽霖 初级会员 发表于 2019-11-23 20:53:32 | 只看该作者
Fuller 发表于 2019-11-23 20:06
你要微博关键词快捷采集工具吗?还是自己的规则?

https://www.gooseeker.com/res/datadiy.html?category=%E7%83%AD%E9%97%A8%E7%BD%91%E7%AB%99&web=%E6%96%B0%E6%B5%AA%E5%BE%AE%E5%8D%9A&rule=%20TA%E7%82%B9%E8%B5%9E%E8%BF%87%E7%9A%84%E5%BE%AE%E5%8D%9A%E6%95%B0%E6%8D%AE

就在这个界面输入我的批量网址

举报 使用道具
8#
maomao 论坛元老 发表于 2019-11-23 23:05:54 | 只看该作者
心诚泽霖 发表于 2019-11-23 20:53
https://www.gooseeker.com/res/datadiy.html?category=%E7%83%AD%E9%97%A8%E7%BD%91%E7%AB%99&web=%E6%9 ...

这个工具要选择页数,选择全部。先选择页数,然后再批量添加网址
举报 使用道具
9#
Fuller 管理员 发表于 2019-11-24 09:12:50 | 只看该作者
因为在添加多条网址的弹窗中没有选择页数的功能,所以,要先选好页数,然后点击“输入多条网址”
举报 使用道具
10#
心诚泽霖 初级会员 发表于 2019-11-24 19:07:16 | 只看该作者
Fuller 发表于 2019-11-24 09:12
因为在添加多条网址的弹窗中没有选择页数的功能,所以,要先选好页数,然后点击“输入多条网址” ...

谢谢你,我应该选的是多条网址,2019年的爬取的条数挺多的,之前的都比较少。我再爬取一遍看看

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 08:14