快捷导航

新浪微博数据采集攻略

2016-12-28 16:45| 发布者: gz51837844| 查看: 4789| 评论: 18|原作者: ym

摘要: 新浪微博页面的组合采集攻略如下(绿框是页面名称,橙色字体是采集结果表中的网址字段): 1、从“微博关键词搜索结果”展开采集更多页面信息 方法:从“微博关键词搜索结果”的数据表中,把“博主主页”这列的网 ...
新浪微博页面的组合采集攻略如下(绿框是页面名称,橙色字体是采集结果表中的网址字段):

1、从“微博关键词搜索结果”展开采集更多页面信息
微博关键词.png
方法:从“微博关键词搜索结果”的数据表中,把“博主主页”这列的网址拷贝出来,然后点击“微博博主主页”的“输入多条网址”按钮,粘贴网址,就可以用后者实现批量数据采集。其它页面类似。


2、从“微博话题广场”展开采集更多页面信息
微博话题.png
方法:从“微博话题广场”的数据表中,把“博主主页”这列的网址拷贝出来,然后点击“微博博主主页”的“输入多条网址”按钮,粘贴网址,就可以用后者实现批量数据采集。其它页面类似。

3、从“微博转发&评论内容”展开采集更多页面信息
微博转发.png
方法:从“微博转发&评论内容”的数据表中,把“博主主页”这列的网址拷贝出来,然后点击“微博博主主页”的“输入多条网址”按钮,粘贴网址,就可以用后者实现批量数据采集。其它页面类似。

4、从“微博粉丝与关注者资料”展开采集更多页面信息
微博粉丝.png
方法:从“微博粉丝与关注者资料”的数据表中,把“主页链接”这列的网址拷贝出来,然后点击“微博博主主页”的“输入多条网址”按钮,粘贴网址,就可以用后者实现批量数据采集。其它页面类似。

5、从“微博博主主页”展开采集更多页面信息
微博博主.png
方法:从“微博博主主页”的数据表中,把“博文独立网址”这列的网址拷贝出来,然后点击“微博转发&评论内容”的“输入多条网址”按钮,粘贴网址,就可以用后者实现批量数据采集。

【附注】
数据DIY上可以找到很多网站下不同页面的采集入口,只要与样例网址是相同级别的网页,就可以用该页面的采集入口采集数据。因此,如果从数据DIY某个页面采集到网址,那么就可以找到该网址对应页面的采集入口,把批量网址添加进去,这也是数据DIY的出发点,让用户可以组合任意页面进行批量采集。



鲜花

握手

雷人

路过

鸡蛋

相关阅读

发表评论

最新评论

评论 1548348930 2020-2-18 11:12
点赞数据收集连翻页都翻不了??
评论 Fuller 2020-2-18 11:17
1548348930 发表于 2020-2-18 11:12
点赞数据收集连翻页都翻不了??

你在集搜客浏览器上登录了微博没有?要在爬虫浏览器上登录微博,不是别的浏览器

另外,是不是爬太多了?如果爬太多了,就要清除cookie和缓存,有两种方法,参看这个帖子:https://www.gooseeker.com/doc/thread-4503-1-1.html

如果电脑安装了安全卫士,安全卫士的在线查杀会大幅度降低网页访问速度,尝试关掉安全卫士,比如360.

爬虫运行的时候,观察爬虫的窗口,看看点赞有没有显示出来?

另外,DS打数机窗口一定要放大到最大,不然的话,微博不给显示的。如果还要做其他事情,可以在DS打数机窗口上覆盖其他窗口,但是,就是不能最小化
评论 zka123 2020-4-13 10:37
微博有7000多个赞,只爬到了40多个人,怎么回事啊
评论 Fuller 2020-4-13 10:50
zka123 发表于 2020-4-13 10:37
微博有7000多个赞,只爬到了40多个人,怎么回事啊

点赞人采集不了多少,因为微博有限制
评论 zka123 2020-4-13 10:57
我用的是新浪微博点赞数据采集,但采集的是评论的人,怎么回事
评论 ym 2020-4-13 11:40
zka123 发表于 2020-4-13 10:57
我用的是新浪微博点赞数据采集,但采集的是评论的人,怎么回事

《新浪微博点赞数据采集》爬取的就是点赞过的微博用户,工具页面底部有示例数据的结构,你可以核对下,如果还有问题,请把这个微博网址发出来和数据表发出来,我们这边测试看看是什么问题。
评论 大杯炒酸奶 2020-5-14 20:14
怎么爬取微博签到数据
评论 maomao 2020-5-14 23:41
大杯炒酸奶 发表于 2020-5-14 20:14
怎么爬取微博签到数据

集搜客快捷工具
weibo签到快捷工具.png






评论 低频词汇 2020-6-22 22:37
怎么爬取被@的数据
评论 Fuller 2020-6-22 22:57
低频词汇 发表于 2020-6-22 22:37
怎么爬取被@的数据

把一条微博的所有转发都采集下来,导出数据以后,在excel中根据@符号就行查找。
评论 laiyongling2017 2020-10-7 14:40
我如果想爬取某个关键词某个时间段内转发最多的微博,怎么爬取,怎么排序?
评论 Fuller 2020-10-7 15:55
laiyongling2017 发表于 2020-10-7 14:40
我如果想爬取某个关键词某个时间段内转发最多的微博,怎么爬取,怎么排序? ...

没法排序,只能把这个时间段内的所有微博爬下来,导出数据以后,在excel中,根据转发数排序
评论 zhuoning 2020-10-16 16:55
爬取一个微博下面的评论区,数据应该有10万+,可是为啥只能爬取到84条嘞..求助~
评论 Fuller 2020-10-16 17:03
zhuoning 发表于 2020-10-16 16:55
爬取一个微博下面的评论区,数据应该有10万+,可是为啥只能爬取到84条嘞..求助~ ...

一定要登录了以后再爬,另外,爬虫运行的时候,不要缩小窗口。还有就是要手工打开这个微博看看,翻着看看能看到的评论数量是不是只有84条。有些微博虽然有很多评论,但是不让看,那么也采集不下来。

用集搜客新出的数据管家软件采集微博应该更方便一些:https://www.gooseeker.com/pro/product_note_firefox.html
评论 Ly20201109 2020-12-17 22:37
怎么爬取微博转发者之间的关系啊?不是转发数量
评论 Fuller 2020-12-18 09:02
Ly20201109 发表于 2020-12-17 22:37
怎么爬取微博转发者之间的关系啊?不是转发数量

把某一条微博下的所有转发抓下来,就得到了这条微博的作者跟第一层转发者的关系。然后把转发微博的网址拿出来,再采集他的转发,就得到了第二层转发关系。一层层做,最后没有转发的了,就完成了
评论 Ly20201109 2020-12-18 11:34
Fuller 发表于 2020-12-18 09:02
把某一条微博下的所有转发抓下来,就得到了这条微博的作者跟第一层转发者的关系。然后把转发微博的网址拿 ...

只能自己一层层手动复制网址吗?不可以自动抓取吗?
评论 Fuller 2020-12-18 11:45
Ly20201109 发表于 2020-12-18 11:34
只能自己一层层手动复制网址吗?不可以自动抓取吗?

完全自动的要定制开发。手动的工作量也不太大,上一轮采集结果导出成excel格式,把excel表中的网址一次选中,拷贝到下一轮的任务中。

数据采集量很大的时候,可以把定制开发任务委托给我们做

查看全部评论(18)

GMT+8, 2021-5-12 03:59