Qwen/Qwen3-4B-Instruct-2507

🧠 Модель ИИQwen

Инструктивная модель с 4 млрд параметров от Qwen, лучшая производительность в задачах рассуждения и многоязычия.

Qwen3-4B-Instruct-2507 является частью серии Qwen3, обученной с использованием передовых методов обучения с подкреплением для улучшения следования инструкциям, рассуждения и безопасности. В ней используется Grouped Query Attention (GQA) для эффективного вывода, поддерживается длина контекста до 32 тысяч токенов, а также встроенная поддержка вызова инструментов и многошаговых диалогов. Несмотря на компактный размер в 4 млрд параметров, модель достигает результатов, сравнимых с моделями на 7 млрд параметров на крупных бенчмарках, таких как MMLU, GSM8K и HumanEval. Модель полностью с открытым исходным кодом под лицензией Apache 2.0, что делает её доступной как для исследовательских, так и для коммерческих целей. Она оптимизирована для развертывания на потребительском оборудовании и может запускаться через Transformers, vLLM или Hugging Face Inference Endpoints.

💡Основное

├─4 млрд параметров, SOTA среди малых
├─Apache 2.0, полностью открыта
└─Использование инструментов и расширенный контекст

🎯Для

├─Разработчики
├─Исследователи
└─Энтузиасты ИИ

🔗Ссылки

└─Модель на Hugging Face