微博改版了,博主主页变成瀑布流了,不能把博主发的博文都采集下来。有解决方法吗?
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2024-6-9 08:20

maomao 论坛元老 发表于 2023-2-3 10:21:31 | 显示全部楼层
微博cn端的博主主页不是瀑布流,是分页的,类似这样的网页https://weibo.cn/2803301701。集搜客新上架了微博cn端的采集工具,可以把博主发的博文都采集下来。

采集之前,也要打开微博cn端,并登陆一个微博账号。
举报 使用道具
maomao 论坛元老 发表于 2023-2-3 10:23:52 | 显示全部楼层
cn端的博主主页链接可以根据网页端的链接构造。类似这样:
网页端:https://weibo.com/u/2803301701
cn端:https://weibo.cn/2803301701

举报 使用道具
maomao 论坛元老 发表于 2023-2-3 10:36:54 | 显示全部楼层
有的博文比较长,需要点击全文展开。可以先用微博博主主页数据采集_cn端批量采集到博文链接。 cn端博文链接.png




然后把博文链接批量复制添加到博文展开全文采集_cn端,批量采集到展开的长博文。
输入多条网址.png
举报 使用道具
Fuller 管理员 发表于 2023-3-9 17:25:26 | 显示全部楼层
采集到的博文链接有很多用途,除了楼上说的,采集长博文的全文。
还可以把博文链接批量拷贝到微博评论采集_cn端快捷工具,采集博文的评论。在cn端,博文的评论也是分页的,所以能采集到所有的评论。

微博cn端评论快捷工具.png
举报 使用道具
Fuller 管理员 发表于 2023-3-9 17:40:01 | 显示全部楼层
采集到的博文链接,除了楼上的用途,还可以添加到微博转发采集_cn端快捷采集工具,采集到这条博文所有的转发信息。

观察下面两条链接的规律,可以很方便的在excel表里改造链接。

微博博主主页数据采集_cn端采集到的链接:https://weibo.cn/comment/MwjP6iohv?&uid=7010131150&#cmtfrm

微博转发采集_cn端快捷工具需要的链接:   https://weibo.cn/repost/MwjP6iohv?uid=7010131150
举报 使用道具
Fuller 管理员 发表于 2023-11-23 11:01:25 | 显示全部楼层
总结一下:到目前为止,微博cn端的快捷采集工具也很齐全了,所以,微博cn端和微博普通网页端各有一套快捷采集工具,大家使用的时候,根据网址不同分别选用。weibo.cn是cn端的,weibo.com是普通网页端的。因为微博cn端采集工具也很齐全了,大部分情况下就不用像上面说的将网址转换成普通网页端的。

微博cn端123105311.png
举报 使用道具
fishhaichun 高级会员 发表于 2024-6-9 06:29:19 | 显示全部楼层
到微博转发采集_cn端试了一下,11476页的数据全部收集完,显示正常,但只收集到8000多条数据,这个比例,漏抓率是不是过于高啊
举报 使用道具
Fuller 管理员 发表于 2024-6-9 08:20:20 | 显示全部楼层
fishhaichun 发表于 2024-6-9 06:29
到微博转发采集_cn端试了一下,11476页的数据全部收集完,显示正常,但只收集到8000多条数据,这个比例,漏 ...

数据有一列是fullpath字段,fullpath里有页码信息,类似这样:
https://weibo.cn/repost/Oi60D9Fg ... &gid=10001&page=12

把最后一行的fullpath在浏览器里打开看看,是不是最后一页,如果不是,可以把这个fullpath添加到快捷工具中继续采集。


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 苹果mac电脑安装集搜客网络爬虫软件失败的
  • 下载支持win7的集搜客网络爬虫软件
  • 遇到“无法识别的应用”告警怎么办?
  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词

热门用户

GMT+8, 2024-7-13 20:11