11#
robingson 金牌会员 发表于 2023-3-12 09:05:51 | 只看该作者
maomao 发表于 2023-2-20 16:28
微博cn端的博主主页是分页的。可以用cn端的快捷工具采集。
而且cn端每一页都是独立的链接,类似https://wei ...

感谢提供信息。但我今天才有时间尝试,发现采集不到内容,不知道哪里出了问题
举报 使用道具
12#
robingson 金牌会员 发表于 2023-3-12 10:30:50 | 只看该作者
Fuller 发表于 2023-2-20 09:03
对,采集的时候,可以观察爬虫窗口中的内容,时间采集够了就收工停止

管理员,今天尝试全部抓取,发现掉数据严重,核对了一下时间,发现很多条都抓漏了,请问这个是什么原因?
举报 使用道具
13#
Fuller 管理员 发表于 2023-3-13 14:12:08 | 只看该作者
fan1119 发表于 2023-3-8 15:50
用第二页的链接采集的数据并没有博文相关内容,这是什么原因导致的

微博博主主页数据采集_cn端这个快捷工具维护了,适应性更好了。你再添加链接,采集试试。
举报 使用道具
14#
Fuller 管理员 发表于 2023-3-13 14:13:48 | 只看该作者
robingson 发表于 2023-3-12 09:05
感谢提供信息。但我今天才有时间尝试,发现采集不到内容,不知道哪里出了问题
...

微博博主主页数据采集_cn端这个快捷工具维护了,适应性更好了。你再添加链接,采集试试。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 怎样设置LDA模型的超参数alpha(α)和beta(
  • LDA主题分析模型到底是什么?
  • top2vec话题发现原理和使用方法
  • 将文本聚类和LDA分析模块安装在数据盘上的
  • GooSeeker分词软件的tf-idf算法和特征词选

热门用户

GMT+8, 2026-4-18 08:14