微博用户数据分析

2018-6-20 10:00| 发布者: xandy| 查看: 22960| 评论: 2|原作者: 集搜客GooSeeker

摘要: 研究目的通过对博主和所发布数据的抽样,分析微博用户的活跃情况、使用习惯倾向、关注的内容焦点等。数据来源收集微博用户主页上的第一页微博数据,在博主主页上收集博主信息和发布的博文信息,博主是随机选的,这里 ...

研究目的

通过对博主和所发布数据的抽样,分析微博用户的活跃情况、使用习惯倾向、关注的内容焦点等。

数据来源

使用集搜客微博数据采集工具箱,这是一套可直接使用的免编程的网络爬虫软件工具。

收集微博用户主页上的第一页微博数据,在博主主页上收集博主信息和发布的博文信息,博主是随机选的,这里选择的数据主题是采集明星博主的数据,通过在微博用户搜索界面输入关键词"艺人"进行搜索,然后再采集搜索出来的各个明星博主的主页链接,把采集到的博主主页链接添加到微博博主主页数据采集工具箱,选择只采集首页,整理得到的数据表如下图所示。

数据字段包括博主、简介、关注数、粉丝数、微博数、博文、发布时间、博文独立网址、发布终端、转发数、评论数、点赞数;如果是转发微博,还有被转发博文的博主名称、博主主页、发布时间、博文独立网址、发布终端、转发数、评论数、点赞数。

数据分析

1、全局统计

博主数量: 87

博文数量: 3855

原创博文数量:2940

转发博文数量:915

平均发布博文数:44.31

平均原创博文数量:33.79

平均转发博文数量:10.52

2、博主统计:分全量统计和样本数据范围统计

2.1、全量统计

博文发布总数top3博主

1、陳法蓉:9062

2、胡兵:9021

3、容祖儿:8926

粉丝总数top3博主

2.2、样本范围统计

样本博文被转发总数top3博主

1、angelababy:8605365

2、汪苏泷:2516437

3、刘宪华Henry-Lau:1538185

样本博文被评论总数top3博主

1、angelababy:1278484

2、朴寶劍_ParkBoGum:537637

3、陈羽凡: 520805

样本博文被点赞总数top3博主

1、angelababy:8349033

2、郑恺:6114702

3、王子文Olivia:5729370

3、博文统计:以下都是以样本数据范围做统计

转发数top3的博文

1、angelababy,转发数:1169490

http://weibo.com/1642351362/Gb8zXdt4N?from=page_1006051642351362_profile&wvr=6&mod=weibotime

评论数top3的博文

1、朴寶劍_ParkBoGum,评论数:253978

http://weibo.com/5896449921/E1OMA30uh?from=page_1005055896449921_profile&wvr=6&mod=weibotime

2、周渝民,评论数:221048

http://weibo.com/3197249862/D3ec766AP?from=page_1006053197249862_profile&wvr=6&mod=w

3、陈羽凡,评论数,200147

http://weibo.com/2113045567/EEGLn6ydW?from=page_1003062113045567_profile&wvr=6&mod=weibotime

点赞数top3的博文

1、周渝民,点赞数:960681

http://weibo.com/3197249862/D3ec766AP?from=page_1006053197249862_profile&wvr=6&mod=weibotime

2、陈羽凡,点赞数:779895

http://weibo.com/2113045567/EEnOW0aY9?from=page_1003062113045567_profile&wvr=6&mod=weibotime

3、陈羽凡,点赞数:698744

http://weibo.com/2113045567/EEGLn6ydW?from=page_1003062113045567_profile&wvr=6&mod=weibotime

有互动(有转发、评论、点赞)和无互动(无转发、评论、点赞)的博文

无互动博文:13条(无转发,无评论,无点赞)

有互动博文:3842条

有三种互动和有一种以上互动的博文

有三种互动博文:3773条

有一种以上互动的博文:3842条

4、终端统计:

不同终端发布博文的统计

5、发布时间统计:

24小时发布规律

6、博文词云分析:

把博文做成词云图,我们需要先对博文进行分词,筛选出与研究目的相关的词,再把这些筛选好的词制作成词云图,下面利用的是集搜客分词打标工具对博文进行分词,操作步骤如下:

这里以有互动的微博博文为例,首先把有互动的微博博文单独拷贝出来,保存到一个新的Excel表里,然后登录,把这张有互动的微博博文表导入,导入后在软件里就可以看到原数据,然后就可以在筛选词语模块下勾选与研究目的相关的词,选完词之后,在选词结果模块下可以看到前面选好的词语以及词语的频数、词语的样本数据,如果觉得哪一个词不想要了,可以在这个模块进行删除,点击下载按钮就可以把选词表、打标结果表、分词效果表一次性地下载下来,这些表都是可以做更加深入的拓展运算,比如词云图、语义分析、建模运算等等。

下面就是利用的tagul词云工具把分词效果表制作成词云图,效果如下:

有互动的博文词云图

无互动的博文词云图

7、总结:

从top统计博文来看,微博用户大多喜欢关注社会热点事件,热衷讨论娱乐和社会舆论;

从终端占比图来看,微博用户使用微博的方式是以手机为主,大部分用户都喜欢使用苹果手机发布微博;

从24小时微博发布规律图来看,微博用户从早上7:00开始活跃起来,白天的12:00到晚上的12:00全天都处于微博用户的活跃高峰期,可见微博深受用户喜爱,到了晚上12:00后活跃度才开始下降。

从博文词云图来看,带正能量的微博会引起更多微博用户的互动,而带广告的博文则会降低用户活跃度。


鲜花

握手

雷人

路过

鸡蛋

相关阅读

发表评论

最新评论

评论 Fuller 2019-4-15 11:33
林夕大宝宝: 你好,请问你的数据分析源码,可以分享给我吗
统计图表,都在excel中做分析就行了。如果需要对文本进行分析,那就用这个分词和统计词频工具:https://www.gooseeker.com/res/softdetail_13.html
评论 林夕大宝宝 2019-4-15 10:32
你好,请问你的数据分析源码,可以分享给我吗

查看全部评论(2)

GMT+8, 2024-10-6 16:25