sentence-transformers/LaBSE

🧠 AI 模型sentence-transformers

一款强大的多语言 BERT 模型，可生成 109 种语言的高质量句子嵌入。

LaBSE 是一款稳健且与语言无关的模型，旨在生成跨多种语言的一致性高质量句子嵌入。它基于 BERT 架构构建，通过掩码语言建模和翻译排序任务相结合的方式进行训练。这种双重训练方法使模型能够捕捉深层的语义细微差别，同时为跨语言任务保持统一的向量空间。其关键技术特性包括对 109 种语言的支持，使其成为开发全球规模应用的开发者的首选方案。该模型具有高度通用性，支持 PyTorch、TensorFlow、JAX 和 ONNX 等多种框架，确保能无缝集成到各种生产流水线中。无论是执行语义搜索、聚类还是跨语言信息检索，LaBSE 都为理解文本相似度提供了可靠的基础，无需为每种语言单独训练模型。其架构针对特征提取进行了优化，能够高效生成密集的向量表示，并可进行索引以实现高速相似度搜索。

💡核心亮点

├─支持 109 种语言的语义嵌入
├─统一的跨语言语义向量空间
└─支持 PyTorch、TF、JAX 等主流框架

🎯适用人群

├─NLP 工程师
└─数据科学家

🔗链接

└─HuggingFace 仓库