charactr/vocos-mel-24khz
🧠 Модель ИИcharactr
Нейронный вокодер высокого качества для преобразования мел-спектрограмм в аудио 24 кГц, с открытым исходным кодом.
Vocos — это нейронный вокодер, который синтезирует аудио из мел-спектрограмм с частотой дискретизации 24 кГц. Он основан на статье arXiv:2306.00814, которая предлагает гибридный подход, объединяющий временные и частотные методы для достижения высококачественного синтеза аудио с быстрым выводом. Ключевые инновации включают дифференцируемое преобразование временной-частотной области, позволяющее модели работать в обеих областях, уменьшая артефакты и повышая эффективность. Модель использует сверточную архитектуру с остаточными блоками и состязательное обучение для генерации естественно звучащих волновых форм. Она оптимизирована для приложений реального времени и легко интегрируется с конвейерами TTS. Доступна на HuggingFace с PyTorch, набрала более 1.36 миллиона загрузок и 41 лайк.
💡Основное
- ├─1.36 млн загрузок
- ├─Статья arXiv:2306.00814
- └─Лицензия MIT
🎯Для
- ├─Разработчики TTS
- ├─Исследователи аудио
- └─Энтузиасты ИИ