charactr/vocos-mel-24khz

🧠 AI 모델charactr

멜-스펙트로그램을 24kHz 오디오로 변환하는 고품질 신경 보코더, 오픈소스.

Vocos는 24kHz 샘플링 레이트로 멜-스펙트로그램에서 오디오를 합성하는 신경 보코더입니다. arXiv:2306.00814 논문을 기반으로 하며, 시간 영역과 푸리에 기반 방법을 결합한 하이브리드 접근법을 통해 고품질 오디오 합성과 빠른 추론을 달성합니다. 주요 혁신은 미분 가능한 시간-주파수 영역 변환으로, 모델이 두 영역에서 모두 작동하도록 하여 아티팩트를 줄이고 효율성을 높입니다. 모델은 잔차 블록이 있는 컨볼루션 아키텍처와 적대적 학습을 사용하여 자연스러운 파형을 생성합니다. 실시간 애플리케이션에 최적화되어 있으며, TTS 파이프라인과 원활하게 통합됩니다. HuggingFace에서 PyTorch로 제공되며, 136만 이상의 다운로드와 41개의 좋아요를 받았습니다.

💡하이라이트

├─136만 다운로드
├─arXiv:2306.00814 논문
└─MIT 라이선스

🎯대상

├─TTS 개발자
├─오디오 연구자
└─AI 애호가

🔗링크

└─HuggingFace 모델