hexgrad/Kokoro-82M
🧠 KI-Modellhexgrad
Leichtes Open-Source-TTS mit 82M Parametern, verfeinert von StyleTTS2 für natürliches Englisch.
Kokoro-82M ist ein Text-to-Speech-Modell basierend auf der StyleTTS2-Architektur, die Stildiffusion und gegnerisches Training kombiniert, um hochgradig natürliche und ausdrucksstarke Sprache zu erzeugen. Das Modell wird aus der LJSpeech-Variante von StyleTTS2 verfeinert und nutzt einen großen englischen Sprachkorpus. Trotz seiner kompakten Größe von 82 Millionen Parametern erreicht Kokoro-82M eine Qualität, die mit viel größeren Modellen vergleichbar ist, und ermöglicht Echtzeit-Inferenz auf handelsüblicher Hardware. Es unterstützt nur Englisch, gibt aber Samples bei 24 kHz aus. Das Modell ist vollständig Open Source unter Apache 2.0, was breite Wiederverwendung und Anpassung ermöglicht. Seine Popularität auf Hugging Face unterstreicht die Nachfrage nach effizienten, hochwertigen TTS-Lösungen.
💡Highlights
- ├─82M Parameter für leichtes TTS
- ├─Verfeinert von StyleTTS2
- └─12M+ Downloads, Apache 2.0
🎯Für
- ├─TTS-Entwickler
- ├─KI-Forscher
- └─unabhängige App-Entwickler