微博内容分词后怎样用JupyterNotebook做LDA主题模型分析

2021-6-21 11:09| 发布者: Fuller| 查看: 9450| 评论: 11

摘要: LDA(Latent Dirichlet Allocation)是一种文档生成模型。它认为一篇文章是有多个主题的，而每个主题又对应着不同的词。一篇文章的构造过程，首先是以一定的概率选择某个主题，然后再在这个主题下以一定的概率选出某一 ...

【注意】：本文的目的是演示LDA函数库的基本使用方法，实际编程时要考虑更多工程因素。所以，为了方便大家使用，LDA分析做成了一个有可视化界面的功能模块，不需自己编程，导入数据即可执行LDA分析。该功能放在GooSeeker分词软件的扩展功能模块里面。具体参看《GooSeeker分词扩展模块的安装方法》。

1，项目说明

1.1 数据分析师可以驾驭的数据处理模板

LDA(Latent Dirichlet Allocation)是一种文档生成模型。它认为一篇文章是有多个主题的，而每个主题又对应着不同的词。一篇文章的构造过程，首先是以一定的概率选择某个主题，然后再在这个主题下以一定的概率选出某一个词，这样就生成了这篇文章的第一个词。不断重复这个过程，就生成了整片文章。这里假定词与词之间是没顺序的。

LDA的使用是上述文档生成的逆过程，它将根据一篇得到的文章，去寻找出这篇文章的主题，以及这些主题对应的词。

Python3下的Gensim库，是一个自然语言处理库，能够将文档根据TF-IDF, LDA, LSI 等模型转化成向量模式，以便进行进一步的处理。此外，gensim还实现了word2vec功能，能够将单词转化为词向量。

Python+gensim【中文LDA】简洁模型一文做了详细讲解，本notebook参照该文做了简化。没有采用jieba分词，而是采用GooSeeker分词和文本分析软件的输出结果。这样做的有个最大好处是：剩下要写的python代码就很少了，防止分散过多精力去调试程序。另外，GooSeeker分词软件有图形界面，在交互数据分析过程中可以清楚地观察分析过程和结果，符合数据探索的要求。

下图展示了本notebook使用的处理流程

在之前的实验中，我们借助GooSeeker分词和文本分析软件生成的分词结果和情感分析结果，在notebook中做词云图和情感走势图。本次实验，为了聚焦于Gensim部分的使用，减少python的代码量，我们依然直接读取GooSeeker分词和文本分析软件生成的分词结果，做进一步的处理。

1.2 本模板适应的场景

本模板根据GooSeeker分词和文本分析软件生成的分词效果表，对数据进行基本处理后，调用Gensim库做进一步处理。

1.3 使用方法

基本操作顺序是：

1. 在GooSeeker分词和文本分析软件上进行任务创建并导入包含原始内容的excel，并导出分词效果表

2. 将导出的分词效果表放在本notebook的data/raw文件夹中

3. 从头到尾执行本notebook的单元

注意：每个notebook项目目录都预先规划好了，具体参看Jupyter Notebook项目目录规划参考。如果要做多个分析项目，把整个模板目录专门拷贝一份给每个分析项目。

1.4 简要技术说明

在每个功能项单元，如果不需要关心的编程细节，将注明【编程细节】。

本notebook主要实现以下几个步骤：

1. 读取data/raw文件夹中的从分词工具导出的分词效果表

2. 对分词效果表进行基本的预处理

3. 使用Gensim库做LDA主题模型实验

4. 使用可视化工具分析生成的主题

2，第三方库

本notebook使用了gensim库和pyLDAvis库，gensim库用于生成BOW词袋和做LDA主题提取， pyLDAvis库用于LDA主题结果的可视化。

请安装下面2个第3方库，方法步骤是：

1. 在Windows开始菜单中找到Anaconda

2. 在Anaconda菜单中找到Anaconda Prompt菜单，选择这个菜单可以打开一个命令行窗口，在命令行窗口中执行下面两条命令：

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple gensim #国内安装使用清华的源，速度快

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyLDAvis

3，数据源

数据源是GooSeeker分词和文本分析软件生成的分词效果表。原始数据是从微博上采集的关于“甘肃马拉松事故”的博文数据。供参考和实验。

将要分析的微博内容以Excel格式导入GooSeeker分词软件，几分钟后就能得到词频词性表和分词效果表。如果还做了关键词筛选，还可以生成共词矩阵和社交关系图。另外情感分析也可自动执行，也可以配置自己的情感词库和文本分类关键词。下图展示了可导出的分词结果表。本文使用Python对分词效果表进行统计分析和画图。

下图显示的是从集搜客分词和文本分析软件导出的分词效果表数据，下面我们会读取这个excel并且把"分词数据"这一列"做处理和转换，每个单元格按Gensim的要求转换成一个列表。