mesolitica/wav2vec2-xls-r-300m-mixed
🧠 AIモデルmesolitica
Wav2Vec2 XLS-R 300Mベースの多言語音声認識モデル、混合言語ASRタスク向け
このモデルは、Facebook AIが開発したWav2Vec2 XLS-R 300Mのファインチューニング版であり、混合言語の自動音声認識向けにmesoliticaが adapting したものです。Transformerアーキテクチャに基づいて構築されたWav2Vec2 XLS-Rは、大規模な多言語音声データによる自己教師あり事前学習を通じて、言語横断的な音声表現を学習します。
主な特徴:
- XLS-R 300Mアーキテクチャに基づき、3億パラメータを搭載
- 混合言語データセットでファインチューニングされ、コードスイッチングや多言語音声に対応
- PyTorchとTensorFlowの両フレームワークに互換
- HuggingFace Transformers、推論エンドポイント、Azureデプロイをサポート
- Kerasコールバック学習パイプラインで生成
- オープンソースで研究・商用利用に適したライセンス
このモデルは、マレーシアや東南アジアなどの多言語地域で一般的な、複数言語を含む音声の書き起こしに特に有用です。automatic-speech-recognition用のtransformersパイプラインタグをサポートし、HuggingFaceのエコシステムを介して本番ワークフローに容易に統合できます。
💡ハイライト
- ├─混合言語ASR向けにファインチューニングされたWav2Vec2 XLS-R 300M
- ├─HuggingFaceで100万件以上のダウンロード
- └─PyTorchとTensorFlowの両方をサポート
🎯対象
- ├─ASR研究者
- ├─多言語アプリケーション開発者
- └─音声技術エンジニア