什么是SBERT

2026-6-11 15:53| 发布者: Fuller| 查看: 11| 评论: 0

摘要: 1. 名词解释SBERT是Sentence-BERT的简写,是专门用于生成“句子向量”的模型。这个向量可用于以下计算:语义相似度计算:做两个向量的cosine计算聚类:例如BERTopic主题聚类计算搜索:把用户输入的搜索条件转换成向 ...

1. 名词解释

SBERT是Sentence-BERT的简写,是专门用于生成“句子向量”的模型。这个向量可用于以下计算:

  • 语义相似度计算:做两个向量的cosine计算
  • 聚类:例如BERTopic主题聚类计算
  • 搜索:把用户输入的搜索条件转换成向量,找到最相似的向量

而BERT是Bidirectional Encoder Representations from Transformers的缩写,其含义是:基于 Transformer 的双向文本表示模型。

所谓Bidirectional(双向),表示模型在理解一个词时会同时看左边和右边的上下文

2. SBERT在BERTopic中的位置

BERTopic主要做下面的计算,可以看到SBERT是第一个大步骤

  1. 用SBERT把文档变成向量
  2. 用UMAP降维
  3. 用 HDBSCAN 聚类
  4. 用 c-TF-IDF 提取关键词

3. SBERT和BERT的重要区别

SBERT将每个文档生成向量。而BERT的原始设计目的不是为了生成文档向量,而是做“句子对”任务的,例如,句子相似度(STS)、自然语言推理(NLI),输入是一对句子,输出是相似度或者判断“是不是下一句”等。


鲜花

握手

雷人

路过

鸡蛋

最新评论

GMT+8, 2026-6-11 17:21