博主主页工具里的这些采集范围有什么区别,要怎么选择?

举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2021-5-28 17:10

沙发
Fuller 管理员 发表于 2021-5-28 17:10:27 | 只看该作者
① 通过链接翻页看到的全部微博

这个选项适合博文页数比较少的情况。
如果选择了这个采集范围,比如把这个博主主页的链接 https://weibo.com/p/100206190865 ... e=1&is_all=1#_0 输入进去,就会采集这个链接下所有页的博文。

这个链接下有1396页博文。一般来说,微博网站不会允许连续翻这么多页的。很可能翻了几十页之后,微博网站就不再显示网页了,爬虫没东西可采,就跳出了。这种情况下,需要选择“全部历史微博”选项。



②全部历史微博

选择这个采集范围,爬虫会自动分两级采集,先获取每个月博文的链接,然后逐个加载这些链接,按月采集博文,直至采集完所有月的博文。

比如爬虫自动获取的2021年2月份博文的链接是

https://weibo.com/p/100206190865 ... date=202102#feedtop

这个月的博文有18页。这样就很容易完整采集。采集完2月份的,会自动加载1月份博文链接

https://weibo.com/p/100206190865 ... date=202101#feedtop

1月份也有十几页博文,采集完了,继续采集2019年12月的博文。。。

可以看到,这个选项的优点是分化任务,逐个击破,突破微博网站的翻页限制。比较适合博文页数很多的博主。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 01:38