分析微博上城市空气质量的博文和评论-怎样爬到更多微博数据 ...

2021-6-22 11:03| 发布者: Fuller| 查看: 2872| 评论: 0

摘要: 每到毕业季,本人的重要工作内容就是提供网络爬虫工具的技术指导,教会做毕业设计的大学生用好数据采集和内容分析软件工具,从而接触和观察到很多有意义的研究课题和研究过程,本文即为一例。1,研究案例:微博上关 ...

每到毕业季,本人的重要工作内容就是提供网络爬虫工具的技术指导,教会做毕业设计的大学生用好数据采集和内容分析软件工具,从而接触和观察到很多有意义的研究课题和研究过程,本文即为一例。

1,研究案例:微博上关于城市空气质量的博文和评论的情感分析

今天在知网上看到一篇运用网络爬虫软件,收集近几年微博上有关城市空气质量的博文和评论,做进一步的情感分析。为旅游目的地空气质量研究提供了新的数据和方法证据,为空气质量监测提供了新的工具。

微博因为信息丰富、多样且开放,且每时每刻都在产生“新鲜”的数据, 是最佳的数据渠道,基于微博上的各种数据做分析,也是每年大学生论文的热门方向。

2,多种呈现方式的数据采集

GooSeeker每年都要支持各个大学的毕业生采集数据完成他们的毕业设计。GooSeeker有一套微博采集工具,专门面向不希望编写网络爬虫程序的研究者设计的。

例如,可以先从微博关键词搜索入口,把搜到的涉及“xx城市空气”的微博话题采集下来,然后把这些话题的微博博文采集下来。微博博文内容呈现方式很丰富,文字、图片、视频都有。这些内容都可以采集下来,分别进行分析。例如,将视频采集下来以后抽取关键帧图片,利用图片分析方法进行分析。

针对重点的微博内容,可以深入采集转发和评论,转发者和评论者,可分析和描述传播的特征和转发者和评论者的传播者特征。还可以根据博主的粉丝数计算传播的量化特征。

GooSeeker推出多个微博采集工具,匹配高校师生从不同角度、不同传播路径、不同内容呈现采集数据的需求。同样也适用于公共领域和民间舆论场分析,市场和商业环境分析等。

3,怎样采集到有关城市空气的更多数据

3.1 确定要采集的微博网址

在微博上搜索某个城市空气的话题, 比如:西安空气

如下图所示, 可以搜索到很多关于西安空气的话题,我们把这个网址( https://s.weibo.com/topic?q=%E8%A5%BF%E5%AE%89%E7%A9%BA%E6%B0%94&pagetype=topic&topic=1&Refer=weibo_topic )复制下来,用作下一步的采集

3.2 把网址添加到微博采集工具箱

把上一步搜索到的话题添加到微博工具箱的话题广场讨论内容工具, 采集话题相关的博文和网址,博文内容就可以用于后续的分析

3.3 进一步采集微博评论

把上一步采集到的博文做个筛选, 选出博文评论数大于0的, 把博文网址添加进微博评论工具, 采集这些博文的评论

4,分词和情感分析

可以使用分词和情感分析软件,对从微博上收集到的博文和评论进行词频统计,情感分析,生成词云图和社交网络图

1

鲜花

握手

雷人

路过

鸡蛋

刚表态过的朋友 (1 人)

最新评论

GMT+8, 2024-3-29 13:30