11#
robingson 金牌会员 发表于 2023-3-12 09:05:51 | 只看该作者
maomao 发表于 2023-2-20 16:28
微博cn端的博主主页是分页的。可以用cn端的快捷工具采集。
而且cn端每一页都是独立的链接,类似https://wei ...

感谢提供信息。但我今天才有时间尝试,发现采集不到内容,不知道哪里出了问题
举报 使用道具
12#
robingson 金牌会员 发表于 2023-3-12 10:30:50 | 只看该作者
Fuller 发表于 2023-2-20 09:03
对,采集的时候,可以观察爬虫窗口中的内容,时间采集够了就收工停止

管理员,今天尝试全部抓取,发现掉数据严重,核对了一下时间,发现很多条都抓漏了,请问这个是什么原因?
举报 使用道具
13#
Fuller 管理员 发表于 2023-3-13 14:12:08 | 只看该作者
fan1119 发表于 2023-3-8 15:50
用第二页的链接采集的数据并没有博文相关内容,这是什么原因导致的

微博博主主页数据采集_cn端这个快捷工具维护了,适应性更好了。你再添加链接,采集试试。
举报 使用道具
14#
Fuller 管理员 发表于 2023-3-13 14:13:48 | 只看该作者
robingson 发表于 2023-3-12 09:05
感谢提供信息。但我今天才有时间尝试,发现采集不到内容,不知道哪里出了问题
...

微博博主主页数据采集_cn端这个快捷工具维护了,适应性更好了。你再添加链接,采集试试。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 03:44