UMAP的n_neighbors参数有什么作用？

2026-6-17 17:48| 发布者: Fuller| 查看: 992| 评论: 0

摘要: UMAP是Uniform Manifold Approximation and Projection的缩写，是一种基于黎曼几何和代数拓扑理论的非线性降维算法。《怎样使用BERTopic做话题检测和主题聚类》建议在没有搞清楚这些参数的意义的时候，使用GooSeeker ...

UMAP是Uniform Manifold Approximation and Projection的缩写，是一种基于黎曼几何和代数拓扑理论的非线性降维算法。

《怎样使用BERTopic做话题检测和主题聚类》建议在没有搞清楚这些参数的意义的时候，使用GooSeeker分词扩展模块界面上设定的缺省值。本文尝试对n_neighbors这个参数做一个简明的讲解。对各参数的解释详见UMAP的官网。

1. 参数的作用

n_neighbors 控制 UMAP 在构图时“每个点看多少近邻”，本质上决定你更偏向保留局部结构还是全局结构。

2. 取值大小的影响

值小（如 5~15）：

值大（如 30~100）：

在 BERTopic 场景里的影响：

3. 推荐取值

4. 直观效果

以下图来自UMAP的官网

5. 和 HDBSCAN 联动调参

6. 与HDBSCAN联动调参的更多解释

6.1 分管不同流程阶段

因为它们作用在不同阶段，管的是不同问题，不是重复参数。

所以流程是：

6.2 两者都需要

如果只有后者没有前者，会发生什么：

直观例子：

6.3 结论：

两者缺一不可，且必须联动调。

上一篇：HDBSCAN的min_samples和min_cluster_size参数应该怎样设置？下一篇：UMAP的min_dist参数有什么作用？

相关分类