1521#
L_PBF33 新手上路 发表于 前天 20:10 | 只看该作者
Fuller 发表于 2026-3-16 09:00
是类似这样的超话吗?https://weibo.com/p/100808fc439dedbb06ca5fd858848e521b8716/super_index
微博超 ...

对,如果人工翻页 翻到大概的时间框架,然后让爬虫收集信息,这样是不是就可以排除时间框架之后的信息了?





举报 使用道具
1522#
Fuller 管理员 发表于 前天 22:05 | 只看该作者
L_PBF33 发表于 2026-3-16 20:10
对,如果人工翻页 翻到大概的时间框架,然后让爬虫收集信息,这样是不是就可以排除时间框架之后的信息了 ...

比如,你要爬第3页开始的5页数据,可以把第3页的链接添加到快捷工具,然后选择采集页数为5
举报 使用道具
1523#
L_PBF33 新手上路 发表于 昨天 19:24 | 只看该作者
Fuller 发表于 2026-3-16 22:05
比如,你要爬第3页开始的5页数据,可以把第3页的链接添加到快捷工具,然后选择采集页数为5
...

好的,我只有最后一个问题,最多可以采集多少页?
举报 使用道具
1524#
Fuller 管理员 发表于 1 小时前 | 只看该作者
L_PBF33 发表于 2026-3-17 19:24
好的,我只有最后一个问题,最多可以采集多少页?

对页数没有限制,看网页上有多少页。据我们的观察,对超话网页来说,几十页之后,网页上的内容大多是重复的。你可以手工翻一翻微博网页,查证一下。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • GooSeeker分词软件的tf-idf算法和特征词选
  • 边表格式和矩阵格式的共词矩阵表有什么区别
  • GooSeeker分词、情感分析和文本分析平台简
  • 聚类分析和主题分析中的特征选择参数的设置
  • 为集搜客分词和情感分析扩展模块安装情感分

热门用户

GMT+8, 2026-3-18 11:00