riffusion/riffusion-hobby

🔧 ツールriffusion

安定拡散モデルを使用したリアルタイム音楽生成。

Riffusionは、スペクトログラムで学習された拡散モデルを活用し、リアルタイムで音楽を生成します。ワークフローは、音声入力を画像のようなスペクトログラムに変換し、安定拡散プロセスを適用し、生成されたスペクトログラムを音声に戻すというものです。このアプローチにより、新規の音楽合成、スタイル転送、インタラクティブなリアルタイム生成が可能になります。プロジェクトはPythonで構築され、diffusersライブラリを使用しています。GPUアクセラレーションに対応し、低遅延のパフォーマンスを実現します。主な機能には、リアルタイム推論、カスタムモデルトレーニング、オーディオ処理パイプラインとの統合が含まれます。

💡ハイライト

├─リアルタイム音楽生成
├─スペクトログラム上の安定拡散
└─オープンソース（3.9kスター）

🎯対象

├─AI研究者
├─ミュージシャン
└─開発者

🔗リンク

└─GitHubリポジトリ