coqui/XTTS-v2
🧠 AIモデルcoqui
オープンソースのテキスト音声合成モデルで、言語横断的な声クローンを実現。
Coqui XTTS-v2は最先端のテキスト音声合成モデルで、言語横断的な声クローンに優れています。数秒の音声から話者の声をクローンし、17言語以上で音声を合成できます。大規模多言語データで訓練され、高い忠実度と自然な韻律を実現。主な革新として、トランスフォーマーアーキテクチャと潜在アライナー、持続時間予測器を採用。ゼロショット声クローンをサポート。Hugging Faceで公開、寛容なライセンスの完全オープンソース。
💡ハイライト
- ├─言語横断的な声クローン
- ├─17以上の言語対応
- └─HuggingFaceで700万ダウンロード突破
🎯対象
- ├─AI開発者
- ├─コンテンツ制作者
- └─アクセシビリティ推進者