Qwen/Qwen3-TTS-12Hz-1.7B-Base

🧠 AIモデルQwen

Qwen社による1.7BパラメータのオープンソースTTSモデル。効率的な12Hz音声生成。

Qwen3-TTS-12Hz-1.7B-Baseは、Qwenシリーズを手がけるAI研究チームQwenが開発した最先端のテキスト音声合成モデルです。17億パラメータのトランスフォーマーアーキテクチャを採用し、テキストを12Hzの低フレームレート音声トークンに変換します。革新的な12Hzトークン化により計算オーバーヘッドを削減しつつ、自然な韻律と音声明瞭性を維持し、エッジ展開やリアルタイムシステムに適しています。多言語データで学習され、ゼロショット音声クローンにも対応。Hugging Faceで130万ダウンロードを超え、開発者や研究者に広く利用されています。Apache 2.0ライセンスの下で自由に使用、改変、配布が可能です。

💡ハイライト

├─1.7Bトランスフォーマーパラメータ
├─12Hz低フレームレートトークン
└─Apache 2.0ライセンス

🎯対象

├─AI開発者
├─音声インターフェースエンジニア
└─音声合成研究者

🔗リンク

└─Hugging Faceモデルページ