HDBSCAN的min_samples和min_cluster_size参数应该怎样设置？

2026-6-16 11:49| 发布者: Fuller| 查看: 1064| 评论: 0

摘要: GooSeeker发布主题聚类功能为用户提供了Top2vec和BERTopic两个模型可以选择。可分别阅读两者的使用方法教程《top2vec话题发现原理和使用方法》和《怎样使用BERTopic做话题检测和主题聚类》在教程的参数设置一段，我 ...

GooSeeker发布主题聚类功能为用户提供了Top2vec和BERTopic两个模型可以选择。可分别阅读两者的使用方法教程《top2vec话题发现原理和使用方法》和《怎样使用BERTopic做话题检测和主题聚类》

在教程的参数设置一段，我们建议保持缺省值不变。本文将讲解一下HDBSCAN模型的两个重要的可调整的参数：

1. 参数的作用

HDBSCAN是 Hierarchical Density-Based Spatial Clustering of Applications with Noise 的缩写。在主题聚类算法中是负责聚类这一步的，前一步是UMAP降维。

从上图可以看到，有两个重要参数可以调整，以便达到想要的聚类效果。

可见，min_samples 是 HDBSCAN 里“核心点判定”的严格度参数，主要作用是控制抗噪声能力和聚类保守程度。

下面我们重点从min_samples为主，min_cluster_size为辅的角度讲解一下他们的作用。

【注意】在实操建议那里，却是建议先设定min_cluster_size，再参照min_cluster_size的值设定min_samples的值。

2. min_samples取值大小都聚类的影响

因为min_samples决定一个簇是否是一个有意义的簇，适当设置可以排除掉噪音，同时保留有意义的文档簇

可见，如果设置比较大的值，结果通常是：

相反值越小：越宽松，就更容易把点纳入簇。结果通常是：

3. min_samples和 min_cluster_size 配合

min_cluster_size提出了另一个要求：一个簇至少要有多大才会当成一个簇。

可见：

两者配合设置，可以决定识别有意义聚簇的严格程度。例如

执行BERTopic算法的时候，噪音文档的所属类别将赋值-1。

4. 实操建议

5. 常见经验

上一篇：为什么BERTopic话题缩减后特征词出现大量没意义的泛词？下一篇：UMAP的n_neighbors参数有什么作用？

相关分类