charactr/vocos-mel-24khz

🧠 KI-Modellcharactr

Hochwertiges neuronaler Vocoder für Mel-Spektrogramm zu 24kHz Audio, Open-Source.

Vocos ist ein neuronaler Vocoder, der Audio aus Mel-Spektrogrammen mit einer Abtastrate von 24kHz synthetisiert. Es basiert auf dem Paper arXiv:2306.00814, das einen hybriden Ansatz vorschlägt, der Zeitbereichs- und Fourier-basierte Methoden kombiniert, um eine hochwertige Audiosynthese mit schneller Inferenz zu erreichen. Zu den wichtigsten Innovationen gehört eine differenzierbare Zeit-Frequenz-Domänen-Transformation, die es dem Modell ermöglicht, in beiden Domänen zu arbeiten, Artefakte zu reduzieren und die Effizienz zu verbessern. Das Modell verwendet eine Convolutional-Architektur mit Residualblöcken und adversarialem Training, um natürlich klingende Wellenformen zu erzeugen. Es ist für Echtzeitanwendungen optimiert und lässt sich nahtlos in TTS-Pipelines integrieren. Verfügbar auf HuggingFace mit PyTorch, hat es über 1,36 Millionen Downloads und 41 Likes erhalten.

💡Highlights

├─1,36 Mio. Downloads
├─Paper arXiv:2306.00814
└─MIT-Lizenz

🎯Für

├─TTS-Entwickler
├─Audioforscher
└─KI-Enthusiasten

🔗Links

└─HuggingFace Modell