GooSeeker发布主题聚类功能为用户提供了Top2vec和BERTopic两个模型可以选择。可分别阅读两者的使用方法教程《top2vec话题发现原理和使用方法》和《怎样使用BERTopic做话题检测和主题聚类》 在教程的参数设置一段,我们建议保持缺省值不变。本文将讲解一下HDBSCAN模型的两个重要的可调整的参数: 1. 参数的作用 HDBSCAN是 Hierarchical Density-Based Spatial Clustering of Applications with Noise 的缩写。在主题聚类算法中是负责聚类这一步的,前一步是UMAP降维。 从上图可以看到,有两个重要参数可以调整,以便达到想要的聚类效果。
可见,min_samples 是 HDBSCAN 里“核心点判定”的严格度参数,主要作用是控制抗噪声能力和聚类保守程度。 下面我们重点从min_samples为主,min_cluster_size为辅的角度讲解一下他们的作用。 【注意】在实操建议那里,却是建议先设定min_cluster_size,再参照min_cluster_size的值设定min_samples的值。 2. min_samples取值大小都聚类的影响 因为min_samples决定一个簇是否是一个有意义的簇,适当设置可以排除掉噪音,同时保留有意义的文档簇
可见,如果设置比较大的值,结果通常是:
相反值越小:越宽松,就更容易把点纳入簇。结果通常是:
3. min_samples和 min_cluster_size 配合 min_cluster_size提出了另一个要求:一个簇至少要有多大才会当成一个簇。 可见:
两者配合设置,可以决定识别有意义聚簇的严格程度。例如
执行BERTopic算法的时候,噪音文档的所属类别将赋值-1。 4. 实操建议
5. 常见经验
|