UMAP是Uniform Manifold Approximation and Projection的缩写,是一种基于黎曼几何和代数拓扑理论的非线性降维算法。 《怎样使用BERTopic做话题检测和主题聚类》建议在没有搞清楚这些参数的意义的时候,使用GooSeeker分词扩展模块界面上设定的缺省值。本文尝试对min_dist这个参数做一个简明的讲解。对各参数的解释详见UMAP的官网。 1. 参数的作用 min_dist 控制 UMAP 在低维空间里“点和点允许靠多近”,也就是簇的紧凑程度。 2. 取值大小的影响 小 min_dist(如 0.0~0.1):
大 min_dist(如 0.3~0.8):
3. 直观效果 下面的图来自UMAP的官网 4. 取值经验 在 BERTopic/聚类场景里:
常见起点:
5. 与n_neighbors的不同 n_neighbors 更像“看多大范围”,min_dist 更像“画出来时挤多紧”。参看《UMAP的n_neighbors参数有什么作用?》 |