mesolitica/wav2vec2-xls-r-300m-mixed

🧠 AIモデルmesolitica

Wav2Vec2 XLS-R 300Mベースの多言語音声認識モデル、混合言語ASRタスク向け

このモデルは、Facebook AIが開発したWav2Vec2 XLS-R 300Mのファインチューニング版であり、混合言語の自動音声認識向けにmesoliticaが adapting したものです。Transformerアーキテクチャに基づいて構築されたWav2Vec2 XLS-Rは、大規模な多言語音声データによる自己教師あり事前学習を通じて、言語横断的な音声表現を学習します。主な特徴: - XLS-R 300Mアーキテクチャに基づき、3億パラメータを搭載 - 混合言語データセットでファインチューニングされ、コードスイッチングや多言語音声に対応 - PyTorchとTensorFlowの両フレームワークに互換 - HuggingFace Transformers、推論エンドポイント、Azureデプロイをサポート - Kerasコールバック学習パイプラインで生成 - オープンソースで研究・商用利用に適したライセンスこのモデルは、マレーシアや東南アジアなどの多言語地域で一般的な、複数言語を含む音声の書き起こしに特に有用です。automatic-speech-recognition用のtransformersパイプラインタグをサポートし、HuggingFaceのエコシステムを介して本番ワークフローに容易に統合できます。

💡ハイライト

├─混合言語ASR向けにファインチューニングされたWav2Vec2 XLS-R 300M
├─HuggingFaceで100万件以上のダウンロード
└─PyTorchとTensorFlowの両方をサポート

🎯対象

├─ASR研究者
├─多言語アプリケーション開発者
└─音声技術エンジニア

🔗リンク

└─HuggingFaceモデルページ