Qwen/Qwen3-Omni-30B-A3B-Instruct

🧠 Модель ИИQwen

30B MoE модель any-to-any от Qwen; всего 3B активируется на токен для эффективного мультимодального понимания.

Qwen3-Omni-30B-A3B-Instruct — это модель на основе смеси экспертов (MoE) с 30 миллиардами параметров, из которых только 3 миллиарда активируются на токен, что значительно снижает вычислительные затраты при сохранении высокой производительности. Обучалась на разнообразных мультимодальных данных, поддерживает возможности any-to-any: входом может быть любая комбинация текста, изображений и аудио, а выходом — текст или аудио. Для генерации аудио используется вокодер Talker от THUDM для высококачественного синтеза речи. Модель совместима с популярными фреймворками, такими как Transformers и vLLM, и может быть донастроена под конкретные задачи. Ключевые инновации включают унифицированное сквозное обучение для одновременного мультимодального понимания и генерации, что обеспечивает полнодуплексное голосовое взаимодействие (например, одновременное слушание и говорение). Также поддерживает детальное мультимодальное рассуждение, такое как ответы на вопросы по изображениям и аудиотранскрипция.

💡Основное

├─30B MoE, только 3B активируется на токен
├─Any-to-any: ввод текст/аудио/изображение, вывод текст/аудио
└─Открытый код, 1.5M+ загрузок

🎯Для

├─ИИ-исследователи
├─мультимодальные разработчики
└─инженеры голосового взаимодействия

🔗Ссылки

└─HuggingFace