anuragshas/wav2vec2-large-xlsr-53-telugu
🧠 AI モデルanuragshas
テルグ語自動音声認識向けにファインチューニングされたWav2Vec2、ダウンロード数176万。
wav2vec2-large-xlsr-53-teluguモデルは、テルグ語に特化してファインチューニングされたトランスフォーマーベースの自動音声認識(ASR)システムです。自己教師あり学習で事前学習されたXLSR-53モデル(53言語)を活用し、OpenSLRのデータセットを使用してテルグ語に適応させています。モデルはWav2Vec2ForCTCアーキテクチャを採用し、接続性時間分類(CTC)用の線形ヘッドを持ちます。主な革新点は、53言語から低リソース言語へのクロスリンガル転移であり、比較的限られたファインチューニングデータで高い精度を達成しています。PyTorchとJAXの両フレームワークをサポートし、Hugging Faceのパイプラインとの互換性により簡単にデプロイできます。寛容なライセンスの下でオープンソース化されており、テルグ語音声技術のさらなる研究と応用を促進します。
💡ハイライト
- ├─176万ダウンロード獲得、高評価5
- ├─XLSR-53からテルグ語OpenSLRで微調整
- └─オープンソース、Hugging Faceパイプライン対応
🎯対象
- ├─ASR研究者
- ├─テルグ語技術者
- └─音声認識エンジニア