charactr/vocos-mel-24khz

🧠 AIモデルcharactr

メルスペクトログラムから24kHz高品質オーディオを合成するニューラルボコーダー、オープンソース。

Vocosは、メルスペクトログラムから24kHzサンプリングレートのオーディオを合成するニューラルボコーダーです。論文arXiv:2306.00814に基づき、時間領域とフーリエ領域の手法を組み合わせたハイブリッドアプローチを採用し、高速な推論で高品質な音声合成を実現。主な革新点は、微分可能な時間-周波数領域変換により両方の領域で動作し、アーティファクトを低減し効率を向上させる点です。モデルは畳み込みアーキテクチャ、残差ブロック、敵対的学習を使用して自然な波形を生成。リアルタイムアプリケーション向けに最適化され、TTSパイプラインとシームレスに統合可能。HuggingFaceでPyTorch版が公開され、136万以上のダウンロードと41のいいねを獲得。

💡ハイライト

├─136万ダウンロード
├─arXiv:2306.00814論文
└─MITライセンス

🎯対象

├─TTS開発者
├─音声研究者
└─AI愛好家

🔗リンク

└─HuggingFaceモデル