Qwen/Qwen3-TTS-12Hz-1.7B-Base
🧠 AIモデルQwen
Qwen社による1.7BパラメータのオープンソースTTSモデル。効率的な12Hz音声生成。
Qwen3-TTS-12Hz-1.7B-Baseは、Qwenシリーズを手がけるAI研究チームQwenが開発した最先端のテキスト音声合成モデルです。17億パラメータのトランスフォーマーアーキテクチャを採用し、テキストを12Hzの低フレームレート音声トークンに変換します。革新的な12Hzトークン化により計算オーバーヘッドを削減しつつ、自然な韻律と音声明瞭性を維持し、エッジ展開やリアルタイムシステムに適しています。多言語データで学習され、ゼロショット音声クローンにも対応。Hugging Faceで130万ダウンロードを超え、開発者や研究者に広く利用されています。Apache 2.0ライセンスの下で自由に使用、改変、配布が可能です。
💡ハイライト
- ├─1.7Bトランスフォーマーパラメータ
- ├─12Hz低フレームレートトークン
- └─Apache 2.0ライセンス
🎯対象
- ├─AI開発者
- ├─音声インターフェースエンジニア
- └─音声合成研究者