coqui/XTTS-v2

🧠 AIモデルcoqui

オープンソースのテキスト音声合成モデルで、言語横断的な声クローンを実現。

Coqui XTTS-v2は最先端のテキスト音声合成モデルで、言語横断的な声クローンに優れています。数秒の音声から話者の声をクローンし、17言語以上で音声を合成できます。大規模多言語データで訓練され、高い忠実度と自然な韻律を実現。主な革新として、トランスフォーマーアーキテクチャと潜在アライナー、持続時間予測器を採用。ゼロショット声クローンをサポート。Hugging Faceで公開、寛容なライセンスの完全オープンソース。

💡ハイライト

├─言語横断的な声クローン
├─17以上の言語対応
└─HuggingFaceで700万ダウンロード突破

🎯対象

├─AI開発者
├─コンテンツ制作者
└─アクセシビリティ推進者

🔗リンク

└─HuggingFaceモデルカード