怎样使用BERTopic做话题检测和主题聚类

2026-6-13 11:15| 发布者: Fuller| 查看: 942| 评论: 0

摘要: 1. 什么是话题检测和主题聚类topic detection有人翻译成话题检测，另有人翻译成话题发现。此前我们讲解了LDA的使用方法，那时，在做主题分析之前需要设定目标主题数，LDA就从文本中提取出这么多主题。当要分析的文本 ...

【BERTopic主题聚类属于扩展模块的功能】

1. 什么是话题检测和主题聚类

topic detection有人翻译成话题检测，另有人翻译成话题发现。此前我们讲解了LDA的使用方法，那时，在做主题分析之前需要设定目标主题数，LDA就从文本中提取出这么多主题。当要分析的文本条数非常多，而且主题是发展变化的，主题数难于预先确定。这种情况往往发生在微博博主主页上。随着时间的发展，博主讨论的主题也在随时间变化。在一个月或者一年的时间跨度内，主题数量比较多而且不能确定。此时，需要算法自动发现有多少个主题，所以叫话题发现。

今天介绍的BERTopic就有话题发现能力，这个能力跟此前介绍的top2vec一样。下面将进行说明。

BERTopic和top2vec的相同点在于：他们都是一种聚类（这是跟LDA有明显区别的），而且他们的计算流程基本上是一样的。

所谓“主题聚类”，强调的是聚类，不像LDA模型是一种概率模型，而更像普通文本聚类那样的聚类过程。但是，我们知道，普通的文本聚类是在由原始特征词构成的多维空间中衡量文档之间的距离，由于特征词非常多，文档向量中在很多特征词维度上是0（非0的维度很稀少），即不含有这个词。而且普通文本聚类是词袋模型，不考虑一个词的前后相关词所表达的语义。相反，主题聚类算法（包括BERTopic、Top2vec等等）解决了这些问题，首先不是在原始的多维空间中表示文档向量，而是在更加稠密的嵌入空间中表示文档向量；其次，采用更加精巧的降为算法和文档向量聚类算法。

但是，BERTopic与top2vec相比又有明显的不同。

2. BERTopic的原理是什么

BERTopic是采用BERT技术的主题聚类算法。主要有下面的步骤：

用SBERT把文档变成向量
用UMAP降维
用 HDBSCAN 聚类
用 c-TF-IDF 提取关键词

对SBERT和BERT的名词解释参看《什么是SBERT》。

3. 安装SBERT模型

同Top2vec的最大区别在于：BERTopic的第一步采用SBERT模型把文档变成向量。SBERT模型是预训练的语言模型，当前发布的GooSeeker分词扩展模块采用这两个模型

英文模型：all-MiniLM-L6-v2
中文模型：bge-base-zh-v1.5

这两个都是参数数量是中小规模的模型，通常的文本分析相关的科研任务是够用。未来发布的版本允许用户自己选择模型。与情感分析模型的安装方法几乎是一样的，所以在此不细说了，可以看情感分析模型安装方法那篇教程：

SBERT的安装位置是一样的；
也是从GooSeeker官方QQ群下载；
模型也是分卷压缩的，解压方法一样；
也是同样把解压后的文件连带文件夹（分别是all-MiniLM-L6-v2和bge-base-zh-v1.5）一起拷贝粘贴到models目录中

【注意】即便只分析中文文本，也要同时安装这两个语言模型。

使用Top2vec做话题检测却不需要安装预训练的语言模型，因为Top2vec在每个分析任务中利用导入的文本数据，从0开始训练模型，并不使用预训练的模型。所以，

【注意】如果要分析的文本条数很少，Top2vec可能很难按照话题进行归类，BERTopic却是可以的。

4. 启动主题聚类分析

如上图，主要有下面步骤：

先创建一个主题聚类任务，创建任务的时候要求导入原始数据表。表的格式必须符合要求，在创建任务对话框中显示了格式要求，即，excel表的表头必须含有“序号”和“正文”两个字段名字。
选择缩减到的话题数：虽然话题数是自动发现的，但是，可以设定一个目标话题数，因为发现的话题数可能会非常多，几百个，看起来很分散，可以预先告诉算法缩减到一个小的数量。也可以设置成“不缩减”。也可以以后再缩减。以后可以选择另一个数字，点击启动分析
选择所用的模型：BERTopic或者Top2vec
点击启动分析按钮

【注意】如果文本条数非常多，将花费很长时间，可能几十分钟，请耐心等待。直等到弹出分析完成提示框，或者在界面上显示一行橙色的字，如果含有“遇到异常”，表示分析失败了。遇到失败的时候请联系管理员，协助诊断失败原因。

5. 可视化结果

5.1. Top20特征词分布图