Qwen/Qwen3-Embedding-8B

🧠 AI МодельQwen

8B-параметрическая модель эмбеддингов текста от Qwen, обеспечивающая передовую производительность по сходству и поиску.

Qwen3-Embedding-8B — это мощная модель эмбеддингов текста, построенная на основе большой языковой модели Qwen3-8B-Base. Она доработана с использованием контрастивного обучения для создания плотных векторных представлений, которые улавливают семантическое значение, что делает её идеальной для таких задач, как семантический поиск, кластеризация документов и генерация с дополнением поиска (RAG). Модель использует многоязычные и многошаговые возможности Qwen3, поддерживая широкий спектр языков и контекстов. Она достигает конкурентоспособных результатов на MTEB (Massive Text Embedding Benchmark), часто превосходя модели аналогичного размера. Ключевые технические детали включают размерность эмбеддинга 4096 (типично для 8B-моделей) и максимальную длину токенов 8192, что позволяет обрабатывать длинные документы. Модель выпущена под разрешительной лицензией Apache 2.0, поощряющей как исследовательское, так и коммерческое использование. Она доступна через HuggingFace Transformers и поддерживает эффективное развёртывание с помощью text-embeddings-inference и sentence-transformers. Сопутствующая статья (arxiv:2506.05176) содержит дополнительные детали обучения и результаты оценки.

💡Основное

├─8B параметров, сильные результаты на MTEB
├─Лицензия Apache 2.0
└─Основана на Qwen3-8B

🎯Для

├─Исследователи NLP
├─разработчики систем поиска/извлечения
└─специалисты по данным

🔗Ссылки

├─Страница модели на HuggingFace
└─Статья (arXiv)