Qwen/Qwen3-VL-4B-Instruct
🧠 Модель ИИQwen
Модель зрения-языка с 4B параметрами для преобразования изображений в текст, донастроенная под инструкции командой Qwen.
Qwen3-VL-4B-Instruct — это мультимодальная трансформерная модель из серии Qwen, предназначенная для задач преобразования изображений в текст. Она использует архитектуру только с декодером и safetensors, поддерживает ввод изображений с высоким разрешением для детального визуального описания, ответов на вопросы по изображениям и диалоговых взаимодействий. Модель донастроена на разнообразном наборе данных пар изображение-текст и обратной связи от людей, достигая высокой производительности на тестах, таких как MMBench и DocVQA. С 4 миллиардами параметров она обеспечивает баланс между эффективностью и возможностями, что делает её подходящей для развертывания в исследованиях и приложениях. Модель доступна бесплатно под лицензией Apache-2.0, что поощряет адаптацию и донастройку сообществом. Технические детали описаны в статьях на arxiv: 2505.09388, 2502.13923 и 2409.12191.
💡Основное
- ├─4B параметров
- ├─Донастроена под инструкции
- └─Открытый исходный код Apache-2.0
🎯Для
- ├─Исследователи ИИ
- ├─Разработчики
- └─Энтузиасты мультимодальных технологий