微博抓取的数据,有些没有年份是怎么回事?如图

QQ图片20191031142337.png
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2020-10-15 18:11

lan_1985 金牌会员 发表于 2019-10-31 14:26:54 | 显示全部楼层
没年份的都是今年的,微博上就是这样显示的
举报 使用道具
wangyong 版主 发表于 2020-10-15 15:12:33 | 显示全部楼层
没有年份的是微博对于今年发布的博文只显示月份不显示年份,用集搜客的微博工具箱采集到的数据是经过清洗的,会补采上年份
QQ截图20201015151118.png
结果示例
QQ截图20201015151213.png
举报 使用道具
Fuller 管理员 发表于 2020-10-15 18:11:54 | 显示全部楼层
wangyong 发表于 2020-10-15 15:12
没有年份的是微博对于今年发布的博文只显示月份不显示年份,用集搜客的微博工具箱采集到的数据是经过清洗的 ...

是的,采集微博类的数据,建议不要自己做规则了,而是用集搜客的微博采集工具箱,会把采集下来的原始内容做一些加工,比如,把年份补上。这些工作由微博采集工具箱自动完成
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-18 18:09