coqui/XTTS-v2

🧠 AI模型coqui

开源文本转语音模型，支持跨语言语音克隆。

Coqui XTTS-v2 是一款先进的文本转语音模型，在跨语言语音克隆方面表现优异。它可以从几秒钟的音频中克隆说话者的声音，并合成 17 种以上语言的语音。该模型基于大规模多语言数据训练，实现了高保真度和自然的韵律。关键技术包括基于 Transformer 的架构、潜在对齐器和时长预测器。支持零样本语音克隆。模型在 Hugging Face 上开源，采用宽松许可证。

💡核心亮点

├─跨语言语音克隆
├─支持17+种语言
└─HuggingFace下载量700万+

🎯适用人群

├─AI 开发者
├─内容创作者
└─无障碍倡导者

🔗链接

└─HuggingFace模型卡