arijitx/wav2vec2-xls-r-300m-bengali

🧠 AIモデルarijitx

ベンガル語の音声認識を高精度で実現する、ファインチューニング済みのWav2Vec2モデル。

arijitx/wav2vec2-xls-r-300m-bengaliは、43万6,000時間の教師なし音声データで学習された大規模クロスリンガル音声表現モデル「XLS-R」をベースにしています。OpenSLR SLR53コーパスを用いてベンガル語向けにファインチューニングされており、多様な音響環境下でも効率的に動作するASRシステムを実現しました。CTC（Connectionist Temporal Classification）損失関数を採用し、Hugging Face Transformersライブラリと完全に互換性があるため、PyTorchベースのパイプラインに容易に統合可能です。世界中で数億人の話者を抱えながらも高品質なオープンソース資源が不足していたベンガル語において、AI音声技術の普及を促進する重要な役割を担っています。計算効率と精度のバランスに優れ、モバイルアプリから自動文字起こしサービスまで、幅広い実環境へのデプロイに適しています。

💡ハイライト

├─300MパラメータのXLS-Rアーキテクチャ
├─OpenSLR SLR53データセットで学習済み
└─ベンガル語向け高性能ASRモデル

🎯対象

├─NLP研究者
└─ソフトウェア開発者

🔗リンク

└─Hugging Face リポジトリ