为什么BERTopic话题缩减后特征词出现大量没意义的泛词？

2026-6-15 13:18| 发布者: Fuller| 查看: 810| 评论: 0

摘要: 一个电商评论的数据集初始发现了198个话题，缩减到5个主题，发现特征词出现了太多泛词。对比下面两图，分别是未缩减话题时的特征词和缩减话题后的特征词。可以发现差别很明显。 ...

【BERTopic话题聚类功能隶属于分词扩展模块】

比如，一个电商评论的数据集初始发现了198个话题，缩减到5个主题，发现特征词出现了太多泛词。对比下面两图，分别是未缩减话题时的特征词和缩减话题后的特征词。可以发现差别很明显。

1. 缩减后特征词为何变“泛”？

BERTopic使用函数model.reduce_topics()把发现的原始话题合并成目标数目的少量几个话题，就是把多个语义相近的话题合并成一个新话题。合并后，这个新话题的文档集合会变大、内容更杂。随后，会把隶属这个话题的所有文档串接成一个大文档，然后才从中提取特征词。

2. c-TF-IDF（class-based TF-IDF）提取特征词的特征

BERTopic 默认用 c-TF-IDF 提取每个话题的特征词。

3. 避免泛词的方法

GooSeeker分词扩展模块的界面上有一个调参按钮。如上图。红框中的参数都是跟c-TF-IDF选词有关的。

max_features：特征提取器将符合条件的词按照词频大小排序，只取词频最高的前面N个词
max_df：用于过滤掉普遍出现的词，就是出现在太多文档中了，对于将一条文档归属于特定一个类别没有任何帮助，反而有混淆的作用。凡是出现频率高于设定值的就会被过滤掉。如果输入一个小于1的小数，那么这个小数表示含有这个词的文档比例；如果是整数，应该是大于等于1的整数，表示多少个文档含有这个词。
min_df：用于过滤掉冷词，就是含有这个词的文档太少了，比如，整个文档集中只有一个文档含有这个词，有可能对于文档归类也有反作用。所以，低于设定值的也要被过滤掉。跟max_df一样，既可以输入小数也可以输入整数。