快捷导航
集搜客分词和文本分析软件可以导出多种数据表,为了对这些数据做进一步的数据分析和数据探索,比如,做一些描述性统计,我们在这里汇总了一系列数据分析和数据挖掘处理过程。这些处理过程都用Jupyter Notebook的格式,把python程序放在一个个code cell中。

一组处理过程压缩成了一个zip程序包,下载下来以后,解压到合适的目录,然后把集搜客分词和文本分析软件导出的数据表放在 data\raw 文件夹中,执行notebook中的cell,就能看到处理结果。

如果你需要某种特别的处理程序,请跟帖说明,我们将设法开发处理程序。

下面是已经做好的处理程序包和功能:
1. Excel对应的功能:
Jupyter Notebook模板下载: 分词软件导出数据进行类似Excel的处理模板.zip (113.37 KB, 下载次数: 47)
举报 使用道具
| 回复

共 20 个关于本帖的回复 最后回复于 2021-10-12 10:51

马涌河畔 金牌会员 发表于 2021-3-3 17:34:17 | 显示全部楼层
1,对集搜客分词工具导出的词频词性表做进一步分析

下面这个帖子是针对分词和情感分析软件导出的词频统计表做的探索:
Jupyter Notebook数据分析实验:用Dataframe查询词频统计表
完整的探索过程和数据文件可以下载这个打包文件查看: 分词软件导出数据分析探索_词频统计表.zip (50.6 KB, 下载次数: 5)
举报 使用道具
Fuller 管理员 发表于 2021-8-2 11:22:34 | 显示全部楼层
2,规划notebook的目录和内容结构

Jupyter Notebook在机器学习领域的项目目录结构规划》:这篇文章值得好好读一下。GooSeeker发布的所有Juypter Notebook都相当于是数据挖掘的模板,都有统一的目录规划,用户下载下来以后,可以在这个模板基础上添加更多代码,做更复杂的处理

用Jupyter Notebook的模板管理数据分析过程》这篇文章对怎么规划notebook内容做了进一步说明

举报 使用道具
Fuller 管理员 发表于 2021-8-2 11:32:05 | 显示全部楼层
3,基本用法探索

实验Jupyter Notebook的code cell的输出结果》:罗列了的常用的Python程序处理过程,也就是怎样写程序代码部分

用Jupyter notebook写文档的常用格式》:罗列了常用的markdown格式,也就是怎么写文档部分
举报 使用道具
Fuller 管理员 发表于 2021-8-2 11:37:16 | 显示全部楼层
4,像Excel一样做常见的描述性分析

集搜客分词结果表用Jupyter Notebook做统计分析—对应Excel功能》:这个notebook就是主贴提到的notebook,一些excel常用的统计与python做了对比
举报 使用道具
Fuller 管理员 发表于 2021-8-3 09:28:24 | 显示全部楼层
5,用Jupyter Notebook抽取数据和文本内容

在Jupyter Notebook中用python提取pdf表格及文本内容》:讲解了怎样从pdf文件中抽取需要的文本内容和表格数据。我认为相比于编写大块的python代码,放在notebook中处理更加合适,因为从pdf中抽取内容很繁琐,容易抽取位置对不上,而在notebook中,反复交互调整,可以很完美地抽取数据。
举报 使用道具
Fuller 管理员 发表于 2021-8-3 09:33:43 | 显示全部楼层
6,画可视化分析图表
点击进入下面的文章中,可下载Jupyter Notebook文件

微博内容分词后怎样用Jupyter Notebook画词云图》:虽然集搜客分词和情感分析可以一键生成词云图,但是用python编程可以更好驾驭词云图

情感分析结果怎样用Jupyter Notebook生成走势图等图表》:只要有数据,而且做了合适的清洗,要画成图其实很容易,只要熟练使用Python的画图程序包就行

如何运行数据分析和可视化Jupyter Notebook模板》:讲解了安装Anaconda和导入画图程序包的过程

分析电商评论发现消费者话题-生成走势图(Jupyter Notebook)


举报 使用道具
Fuller 管理员 发表于 2021-8-3 09:51:28 | 显示全部楼层
7,LDA主题分析
点击进入下面的文章中,可下载Jupyter Notebook文件

微博内容分词后怎样用JupyterNotebook做LDA主题模型分析》:详细讲解了LDA的计算步骤,罗列了必要的参考资料

微博内容分词并手工选词后用JupyterNotebook做LDA主题分析》:使用GooSeeker分词和文本分析软件,做了手工选词,实际上是做了特征词的选择,那么在这个基础上再做话题分析,就会精准很多。

分析电商评论发现消费者话题-LDA主题分析篇(Jupyter Notebook)》:讲解了用LDA模型分析电商网站上的商品评论。由于商品评论的话题是相当封闭的,所以,LDA分析出来的话题一定会比较精准
举报 使用道具
Fuller 管理员 发表于 2021-8-3 10:10:20 | 显示全部楼层
8,操作地图api和清洗地址数据
点击进入下面的文章中,可下载Jupyter Notebook文件

Jupyter Notebook怎样获取微博签到地的经纬度并在地图上显示》:根据采集到的地名信息,经过地名清洗和补充,提交给百度地图api,翻译成经纬度

Jupyter Notebook怎样获取安居客二手房小区经纬度并在地图上显示



举报 使用道具
Fuller 管理员 发表于 2021-8-3 10:18:17 | 显示全部楼层
9,社交图谱的中心性计算

讲解了三大中心性的计算方法:接近中心度、中介中心度、点度中心度。再结合使用集搜客文本分析和情感分析软件,可以更灵活地计算中心性。

怎样使用Jupyter Notebook计算接近中心度

如何使用Jupyter Notebook计算中介中心度(betweenness centrality)

怎样利用集搜客的共词矩阵表计算点度中心性(Degree centrality)

Jupyter Notebook使用Python计算特征向量中心度(Eigenvector Centrality)》:讲解了使用networkx函数计算特征向量中心性的方法,并在另一个notebook中讲解了函数背后的原理《特征向量中心性计算中的迭代是怎么回事?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 在Jupyter Notebook中将分词结果转换成数组
  • 在Jupyter Notebook中使用word2vec和k-mean
  • 网络评价对水产品线上销量影响的实证分析—
  • “中坚青年”压力与动力转化的—以高校青年
  • “抖音”短视频文本里的新生代婆媳关系

热门用户

GMT+8, 2021-12-8 05:11