Qwen/Qwen3-Omni-30B-A3B-Instruct
🧠 AIモデルQwen
Qwenによる30B MoE any-to-anyモデル、トークンあたり3Bのみ活性化で効率的なマルチモーダル理解。
Qwen3-Omni-30B-A3B-Instructは、総パラメータ300億のMixture-of-Experts(MoE)モデルで、トークンあたり30億のみが活性化され、計算コストを大幅に削減しつつ高性能を維持します。多様なマルチモーダルデータで学習され、any-to-any機能をサポート:入力はテキスト、画像、音声の任意の組み合わせ、出力はテキストまたは音声です。音声生成にはTHUDMのTalkerボコーダーを統合し、高忠実度の音声合成を実現。TransformersやvLLMなどの一般的なフレームワークと互換性があり、特定のタスクにファインチューニング可能です。主な革新として、統合エンドツーエンドトレーニングによる同時マルチモーダル理解と生成、全二重音声対話(例:同時に聞く・話す)を実現。視覚質問応答や音声書き起こしなどの細粒度マルチモーダル推論もサポートします。
💡ハイライト
- ├─30B MoE、トークンあたり3Bのみ活性化
- ├─Any-to-any: テキスト/音声/画像入力、テキスト/音声出力
- └─オープンソース、150万+ダウンロード
🎯対象
- ├─AI研究者
- ├─マルチモーダル開発者
- └─音声対話エンジニア