Qwen/Qwen3-VL-2B-Instruct

🧠 Модель ИИQwen

Мультимодальная модель 2B для задач изображение-текст.

Qwen3-VL-2B-Instruct — компактная мультимодальная модель из серии Qwen3-VL, объединяющая энкодер изображений с языковой основой Qwen3. Она поддерживает гибкие разрешения изображений, обеспечивает детальное визуальное понимание и решает такие задачи, как распознавание текста на сцене, понимание диаграмм и многошаговые диалоги. Модель обучена по тому же рецепту, что и более крупные варианты, и доступна под лицензией Apache-2.0. Она может использоваться с transformers и vLLM, принимает перемежающиеся входные данные изображение-текст.

💡Основное

├─2B параметров, лицензия Apache-2.0
├─Поддержка изображений высокого разрешения и видео
└─На базе архитектуры Qwen3 instruct

🎯Для

├─Исследователи ИИ
├─Разработчики мультимодальных приложений
└─Инженеры компьютерного зрения

🔗Ссылки

└─Карточка модели на HuggingFace