Qwen/Qwen3-VL-2B-Instruct
🧠 Модель ИИQwen
Мультимодальная модель 2B для задач изображение-текст.
Qwen3-VL-2B-Instruct — компактная мультимодальная модель из серии Qwen3-VL, объединяющая энкодер изображений с языковой основой Qwen3. Она поддерживает гибкие разрешения изображений, обеспечивает детальное визуальное понимание и решает такие задачи, как распознавание текста на сцене, понимание диаграмм и многошаговые диалоги. Модель обучена по тому же рецепту, что и более крупные варианты, и доступна под лицензией Apache-2.0. Она может использоваться с transformers и vLLM, принимает перемежающиеся входные данные изображение-текст.
💡Основное
- ├─2B параметров, лицензия Apache-2.0
- ├─Поддержка изображений высокого разрешения и видео
- └─На базе архитектуры Qwen3 instruct
🎯Для
- ├─Исследователи ИИ
- ├─Разработчики мультимодальных приложений
- └─Инженеры компьютерного зрения