nguyenvulebinh/wav2vec2-base-vi-vlsp2020

🧠 AIモデルnguyenvulebinh

wav2vec2-baseをVLSP 2020でファインチューニングしたベトナム語音声認識モデル

wav2vec2-base-vi-vlsp2020は、ベトナム語専用に設計された音声認識システムです。Facebook AIのwav2vec2-base自己教師あり音声表現アーキテクチャを採用し、ベトナム語音声処理研究やコンペティションで広く利用されているベンチマークコーパスであるVLSP 2020 ASRデータセットでファインチューニングされています。生音声を入力として受け取り、ベトナム語のテキストに書き起こし、Hugging Faceの自動音声認識パイプラインをすぐにサポートします。PyTorchで実装され、Transformersライブラリと互換性があり、数行のコードで簡単に読み込んでInference Endpointsにデプロイできます。本モデルはCC-BY-NC-4.0ライセンスの下で公開されており、非営利の研究およびアプリケーション開発に適しています。ベトナム語ASRタスクにおける高い性能と、オープンな提供体制、容易な統合性により、ベトナム語向け音声インターフェース、文字起こしツール、音声対応アプリケーションを開発する開発者にとって定番の選択肢となっています。

💡ハイライト

├─VLSP 2020でファインチューニング済み
├─Facebookのwav2vec2-baseがベース
├─Hugging Faceで100万DL超え
├─Transformersパイプライン対応
└─CC-BY-NC-4.0ライセンス採用

🎯対象

├─ベトナム語NLP研究者
├─ASRアプリケーション開発者
└─多言語AIエンジニア

🔗リンク

└─Hugging Faceモデルページ