Qwen/Qwen3-Omni-30B-A3B-Instruct

🧠 AIモデルQwen

Qwenによる30B MoE any-to-anyモデル、トークンあたり3Bのみ活性化で効率的なマルチモーダル理解。

Qwen3-Omni-30B-A3B-Instructは、総パラメータ300億のMixture-of-Experts（MoE）モデルで、トークンあたり30億のみが活性化され、計算コストを大幅に削減しつつ高性能を維持します。多様なマルチモーダルデータで学習され、any-to-any機能をサポート：入力はテキスト、画像、音声の任意の組み合わせ、出力はテキストまたは音声です。音声生成にはTHUDMのTalkerボコーダーを統合し、高忠実度の音声合成を実現。TransformersやvLLMなどの一般的なフレームワークと互換性があり、特定のタスクにファインチューニング可能です。主な革新として、統合エンドツーエンドトレーニングによる同時マルチモーダル理解と生成、全二重音声対話（例：同時に聞く・話す）を実現。視覚質問応答や音声書き起こしなどの細粒度マルチモーダル推論もサポートします。

💡ハイライト

├─30B MoE、トークンあたり3Bのみ活性化
├─Any-to-any: テキスト/音声/画像入力、テキスト/音声出力
└─オープンソース、150万+ダウンロード

🎯対象

├─AI研究者
├─マルチモーダル開発者
└─音声対話エンジニア

🔗リンク

└─HuggingFace