1521#
Fuller 管理员 发表于 2026-3-18 09:56:34 | 只看该作者
L_PBF33 发表于 2026-3-17 19:24
好的,我只有最后一个问题,最多可以采集多少页?

对页数没有限制,看网页上有多少页。据我们的观察,对超话网页来说,几十页之后,网页上的内容大多是重复的。你可以手工翻一翻微博网页,查证一下。
举报 使用道具
1522#
lunana12138 中级会员 发表于 2026-3-30 16:46:08 | 只看该作者
爬取微博主页,有很多重复的数据,请问这个怎么解决呀?
举报 使用道具
1523#
lunana12138 中级会员 发表于 2026-3-30 16:46:42 | 只看该作者
爬取微博主页博文,有很多重复的数据,请问这个怎么解决呀?
举报 使用道具
1524#
Fuller 管理员 发表于 2026-3-30 17:02:17 | 只看该作者
lunana12138 发表于 2026-3-30 16:46
爬取微博主页博文,有很多重复的数据,请问这个怎么解决呀?

博主主页采集工具,有数据清洗,应该没有重复,你把原始数据包发出来看看,或者加用户群472442022,发给群里的管理员。
举报 使用道具
1525#
L_PBF33 新手上路 发表于 2026-4-15 22:05:26 | 只看该作者
请问如何在在采集工具中,设置话题为为超话?
举报 使用道具
1526#
Fuller 管理员 发表于 2026-4-15 22:20:14 | 只看该作者
L_PBF33 发表于 2026-4-15 22:05
请问如何在在采集工具中,设置话题为为超话?

超话和话题是不同的微博网页,用不同的采集工具采集。

比如这是超话:
https://weibo.com/p/10080814bf5c897776f11648134a65c8365b77
超话工具采集



这是话题:
#成都常住人口接近北京#

微博话题广场工具采集
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • gooseeker分词工具的命名实体识别和词形还
  • 怎样设置LDA模型的超参数alpha(α)和beta(
  • LDA主题分析模型到底是什么?
  • top2vec话题发现原理和使用方法
  • 将文本聚类和LDA分析模块安装在数据盘上的

热门用户

GMT+8, 2026-5-2 15:38