jonatasgrosman/wav2vec2-large-xlsr-53-japanese

🧠 AI模型jonatasgrosman

Wav2Vec2-XLSR-53 针对日语进行微调，实现最先进的 ASR。

该模型基于 Wav2Vec2-XLSR-53 架构，这是一个在 53 种语言上预训练的自监督模型。它在 Common Voice 的日语子集上进行了微调，Common Voice 是一个众包朗读语音数据集。模型使用具有对比学习目标的 Transformer 编码器。主要特点包括：12 个 Transformer 块、1024 隐藏维度、4096 前馈网络大小。通过 PyTorch 和 JAX 支持推理。模型输出字符级转录。它在纯净语音上表现特别稳健，并且能够很好地处理各种口音。训练过程利用了 XLSR 微调周资源，优化了词错误率 (WER)。检查点可直接用于 HuggingFace 的 pipeline。

💡核心亮点

├─XLSR-53 基础，日语微调
├─HuggingFace 上 360 万次下载
└─Transformer 高精度 ASR

🎯适用人群

├─语音识别开发者
├─日语自然语言处理研究人员
└─AI 爱好者

🔗链接

└─HuggingFace 模型页面