Qwen/Qwen3-TTS-12Hz-0.6B-CustomVoice

🧠 AI ModelQwen

Высокопроизводительная модель синтеза речи (TTS) на 0,6 млрд параметров с поддержкой клонирования голоса от Qwen.

Модель Qwen3-TTS-12Hz-0.6B-CustomVoice представляет собой значительный шаг в области эффективного синтеза речи. Построенная на архитектуре Qwen, модель использует частоту дискретизации 12 Гц для баланса между вычислительной эффективностью и высоким качеством звука. При объеме в 0,6 миллиарда параметров она оптимизирована для развертывания в условиях ограниченных ресурсов, сохраняя при этом способность к сложному клонированию голоса. Модель поддерживает несколько языков, что делает её универсальным инструментом для глобальных проектов. Использование формата safetensors обеспечивает безопасную и быструю загрузку. Архитектура специально настроена для передачи естественной интонации и эмоциональных нюансов, позволяя создавать человекоподобный и вовлекающий голос. Это надежная база для интерактивных агентов, инструментов доступности и создания контента.

💡Основное

├─0,6 млрд параметров для скорости
├─Поддержка EN, ZH, JA и KO
└─Оптимизировано для клонирования

🎯Для

├─AI-разработчики
└─Исследователи синтеза речи

🔗Ссылки

└─Репозиторий HuggingFace