Qwen/Qwen3-Omni-30B-A3B-Instruct
🧠 Модель ИИQwen
30B MoE модель any-to-any от Qwen; всего 3B активируется на токен для эффективного мультимодального понимания.
Qwen3-Omni-30B-A3B-Instruct — это модель на основе смеси экспертов (MoE) с 30 миллиардами параметров, из которых только 3 миллиарда активируются на токен, что значительно снижает вычислительные затраты при сохранении высокой производительности. Обучалась на разнообразных мультимодальных данных, поддерживает возможности any-to-any: входом может быть любая комбинация текста, изображений и аудио, а выходом — текст или аудио. Для генерации аудио используется вокодер Talker от THUDM для высококачественного синтеза речи. Модель совместима с популярными фреймворками, такими как Transformers и vLLM, и может быть донастроена под конкретные задачи. Ключевые инновации включают унифицированное сквозное обучение для одновременного мультимодального понимания и генерации, что обеспечивает полнодуплексное голосовое взаимодействие (например, одновременное слушание и говорение). Также поддерживает детальное мультимодальное рассуждение, такое как ответы на вопросы по изображениям и аудиотранскрипция.
💡Основное
- ├─30B MoE, только 3B активируется на токен
- ├─Any-to-any: ввод текст/аудио/изображение, вывод текст/аудио
- └─Открытый код, 1.5M+ загрузок
🎯Для
- ├─ИИ-исследователи
- ├─мультимодальные разработчики
- └─инженеры голосового взаимодействия