Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice

🧠 AI ModelQwen

Open-Source-TTS-Modell von Qwen: 1,7B Parameter, 12Hz Audio, unterstützt individuelle Sprachklonung.

Qwen3-TTS ist ein Open-Source-Transformer-basiertes Text-to-Speech-Modell, das 12Hz Audio ausgibt – eine höhere zeitliche Auflösung als typische 16kHz- oder 24kHz-Modelle, was eine feinkörnige Kontrolle über Prosodie und Dauer ermöglicht. Mit 1,7B Parametern erreicht es modernste Natürlichkeit bei gleichzeitiger Effizienz für den praktischen Einsatz. Zu den wichtigsten Innovationen gehört die benutzerdefinierte Sprachfunktion, die es erlaubt, die Stimme eines Sprechers aus nur wenigen Sekunden Audio zu klonen, was es für personalisierte Sprachapplikationen geeignet macht. Das Modell verwendet Safetensors für sichere Serialisierung und wird von einem Arxiv-Papier (2601.15621) begleitet. Es unterstützt mehrere Sprachen und ist sowohl für Inferenz als auch für Feintuning optimiert.

💡Highlights

├─1,7B Parameter
├─12Hz Audioausgabe
└─Individuelles Sprachklonen

🎯Für

├─KI-Forscher
├─Entwickler von Sprachapplikationen
└─Content-Ersteller

🔗Links

└─Modell auf HuggingFace