charactr/vocos-mel-24khz

🧠 Модель ИИcharactr

Нейронный вокодер высокого качества для преобразования мел-спектрограмм в аудио 24 кГц, с открытым исходным кодом.

Vocos — это нейронный вокодер, который синтезирует аудио из мел-спектрограмм с частотой дискретизации 24 кГц. Он основан на статье arXiv:2306.00814, которая предлагает гибридный подход, объединяющий временные и частотные методы для достижения высококачественного синтеза аудио с быстрым выводом. Ключевые инновации включают дифференцируемое преобразование временной-частотной области, позволяющее модели работать в обеих областях, уменьшая артефакты и повышая эффективность. Модель использует сверточную архитектуру с остаточными блоками и состязательное обучение для генерации естественно звучащих волновых форм. Она оптимизирована для приложений реального времени и легко интегрируется с конвейерами TTS. Доступна на HuggingFace с PyTorch, набрала более 1.36 миллиона загрузок и 41 лайк.

💡Основное

├─1.36 млн загрузок
├─Статья arXiv:2306.00814
└─Лицензия MIT

🎯Для

├─Разработчики TTS
├─Исследователи аудио
└─Энтузиасты ИИ

🔗Ссылки

└─Модель на HuggingFace