Fuller 管理员 发表于 2023-4-3 09:05:48 | 显示全部楼层
20191106127 发表于 2023-4-1 21:51
为什么微博粉丝量抓取出来没有性别也不完整呢

网页上显示的内容才能采集下来
举报 使用道具
Mengmengtu 新手上路 发表于 2023-4-6 11:39:20 | 显示全部楼层
请问这个采集工具在哪里打开?https://www.gooseeker.com/res/rule_494.html
举报 使用道具
Fuller 管理员 发表于 2023-4-6 11:46:05 | 显示全部楼层
Mengmengtu 发表于 2023-4-6 11:39
请问这个采集工具在哪里打开?https://www.gooseeker.com/res/rule_494.html

快捷采集用法参看:https://www.gooseeker.com/tuto/tutor_article.html?t=1

网页上左栏第一项全部是关于快捷采集的教程
举报 使用道具
Fuller 管理员 发表于 2023-4-6 14:34:16 | 显示全部楼层

采集了博主主页后,还需要继续采集博文展开,看这个帖子的第6步。
https://www.gooseeker.com/doc/article-565-1.html
举报 使用道具
nino23 新手上路 发表于 2023-4-22 00:47:12 | 显示全部楼层
微博搜索关键词采集设置的三年内数据,采集导出来的数据只有半年的
举报 使用道具
Fuller 管理员 发表于 2023-4-22 08:45:02 | 显示全部楼层
nino23 发表于 2023-4-22 00:47
微博搜索关键词采集设置的三年内数据,采集导出来的数据只有半年的

微博翻页数有限制,只能翻页看50页,为了能看更多,搜索的时候要设置细分时间段,最细1个小时。不过,设置之前你得仔细估计一下:需要多细?不能太细,不然要采集十分十分久,如果是3年,细分成一小时,一天就有24小时,这样就会产生大量网址,要采集很久的。如果微博数量不是很多,细分时间段可以粗一些,只要这个时间段内的微博不超过50页就不会漏。

能设置细分条件的微博采集工具是这个:https://www.gooseeker.com/res/softdetail_4.html
举报 使用道具
khalilko 新手上路 发表于 2023-4-23 19:32:32 | 显示全部楼层
为什么微博转发1.5万条 转发采集只出了448条 发布时间截止到2022/6/23
举报 使用道具
neumman 新手上路 发表于 2023-5-20 13:49:11 | 显示全部楼层
Fuller 发表于 2016-3-1 15:30
一个小技巧,如果一个博主的微博特别多,采集过程中很容易中断,可以从中断的地方接着采。
看上图,余承东 ...

怎么从中断的地方继续?我的网页不会跳转,每次中断了只能从头来。
举报 使用道具
Fuller 管理员 发表于 2023-5-20 16:36:18 | 显示全部楼层
neumman 发表于 2023-5-20 13:49
怎么从中断的地方继续?我的网页不会跳转,每次中断了只能从头来。

微博从去年改版了,变成了瀑布流网页,不是一页页的翻页,所以中断了,只能从头再来。微博cn端的博主主页还是翻页形式,可以采集更多,中断了,也可以把中断处的网页链接添加到微博博主主页数据采集_cn端,继续采集
举报 使用道具
hualanyaxue 初级会员 发表于 2023-5-28 16:32:17 | 显示全部楼层
新版微博界面是瀑布流,不能一下子爬取完,用cn端的爬取某个微博下的评论,也只能爬取50页,但是总数是大于50页的比如我找的微博是显示118页,但是只能爬到50页,50页之后就看不到了。而cn端也没办法限定时间条件啊,而且他的不同页码的链接只是结尾的page数不同,就算从51开始,也是啥也没有怎么办
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 06:27