coqui/XTTS-v2
🧠 AI模型coqui
开源文本转语音模型,支持跨语言语音克隆。
Coqui XTTS-v2 是一款先进的文本转语音模型,在跨语言语音克隆方面表现优异。它可以从几秒钟的音频中克隆说话者的声音,并合成 17 种以上语言的语音。该模型基于大规模多语言数据训练,实现了高保真度和自然的韵律。关键技术包括基于 Transformer 的架构、潜在对齐器和时长预测器。支持零样本语音克隆。模型在 Hugging Face 上开源,采用宽松许可证。
开源文本转语音模型,支持跨语言语音克隆。