anuragshas/wav2vec2-large-xlsr-53-telugu

🧠 AI モデルanuragshas

テルグ語自動音声認識向けにファインチューニングされたWav2Vec2、ダウンロード数176万。

wav2vec2-large-xlsr-53-teluguモデルは、テルグ語に特化してファインチューニングされたトランスフォーマーベースの自動音声認識（ASR）システムです。自己教師あり学習で事前学習されたXLSR-53モデル（53言語）を活用し、OpenSLRのデータセットを使用してテルグ語に適応させています。モデルはWav2Vec2ForCTCアーキテクチャを採用し、接続性時間分類（CTC）用の線形ヘッドを持ちます。主な革新点は、53言語から低リソース言語へのクロスリンガル転移であり、比較的限られたファインチューニングデータで高い精度を達成しています。PyTorchとJAXの両フレームワークをサポートし、Hugging Faceのパイプラインとの互換性により簡単にデプロイできます。寛容なライセンスの下でオープンソース化されており、テルグ語音声技術のさらなる研究と応用を促進します。

💡ハイライト

├─176万ダウンロード獲得、高評価5
├─XLSR-53からテルグ語OpenSLRで微調整
└─オープンソース、Hugging Faceパイプライン対応

🎯対象

├─ASR研究者
├─テルグ語技術者
└─音声認識エンジニア

🔗リンク

└─HuggingFace上のモデル