charactr/vocos-mel-24khz
🧠 AIモデルcharactr
メルスペクトログラムから24kHz高品質オーディオを合成するニューラルボコーダー、オープンソース。
Vocosは、メルスペクトログラムから24kHzサンプリングレートのオーディオを合成するニューラルボコーダーです。論文arXiv:2306.00814に基づき、時間領域とフーリエ領域の手法を組み合わせたハイブリッドアプローチを採用し、高速な推論で高品質な音声合成を実現。主な革新点は、微分可能な時間-周波数領域変換により両方の領域で動作し、アーティファクトを低減し効率を向上させる点です。モデルは畳み込みアーキテクチャ、残差ブロック、敵対的学習を使用して自然な波形を生成。リアルタイムアプリケーション向けに最適化され、TTSパイプラインとシームレスに統合可能。HuggingFaceでPyTorch版が公開され、136万以上のダウンロードと41のいいねを獲得。