Qwen/Qwen3-VL-4B-Instruct

🧠 Модель ИИQwen

Модель зрения-языка с 4B параметрами для преобразования изображений в текст, донастроенная под инструкции командой Qwen.

Qwen3-VL-4B-Instruct — это мультимодальная трансформерная модель из серии Qwen, предназначенная для задач преобразования изображений в текст. Она использует архитектуру только с декодером и safetensors, поддерживает ввод изображений с высоким разрешением для детального визуального описания, ответов на вопросы по изображениям и диалоговых взаимодействий. Модель донастроена на разнообразном наборе данных пар изображение-текст и обратной связи от людей, достигая высокой производительности на тестах, таких как MMBench и DocVQA. С 4 миллиардами параметров она обеспечивает баланс между эффективностью и возможностями, что делает её подходящей для развертывания в исследованиях и приложениях. Модель доступна бесплатно под лицензией Apache-2.0, что поощряет адаптацию и донастройку сообществом. Технические детали описаны в статьях на arxiv: 2505.09388, 2502.13923 и 2409.12191.

💡Основное

├─4B параметров
├─Донастроена под инструкции
└─Открытый исходный код Apache-2.0

🎯Для

├─Исследователи ИИ
├─Разработчики
└─Энтузиасты мультимодальных технологий

🔗Ссылки

└─Страница модели на HuggingFace