charactr/vocos-mel-24khz
🧠 KI-Modellcharactr
Hochwertiges neuronaler Vocoder für Mel-Spektrogramm zu 24kHz Audio, Open-Source.
Vocos ist ein neuronaler Vocoder, der Audio aus Mel-Spektrogrammen mit einer Abtastrate von 24kHz synthetisiert. Es basiert auf dem Paper arXiv:2306.00814, das einen hybriden Ansatz vorschlägt, der Zeitbereichs- und Fourier-basierte Methoden kombiniert, um eine hochwertige Audiosynthese mit schneller Inferenz zu erreichen. Zu den wichtigsten Innovationen gehört eine differenzierbare Zeit-Frequenz-Domänen-Transformation, die es dem Modell ermöglicht, in beiden Domänen zu arbeiten, Artefakte zu reduzieren und die Effizienz zu verbessern. Das Modell verwendet eine Convolutional-Architektur mit Residualblöcken und adversarialem Training, um natürlich klingende Wellenformen zu erzeugen. Es ist für Echtzeitanwendungen optimiert und lässt sich nahtlos in TTS-Pipelines integrieren. Verfügbar auf HuggingFace mit PyTorch, hat es über 1,36 Millionen Downloads und 41 Likes erhalten.
💡Highlights
- ├─1,36 Mio. Downloads
- ├─Paper arXiv:2306.00814
- └─MIT-Lizenz
🎯Für
- ├─TTS-Entwickler
- ├─Audioforscher
- └─KI-Enthusiasten