jonatasgrosman/wav2vec2-large-xlsr-53-japanese
🧠 AI模型jonatasgrosman
Wav2Vec2-XLSR-53 针对日语进行微调,实现最先进的 ASR。
该模型基于 Wav2Vec2-XLSR-53 架构,这是一个在 53 种语言上预训练的自监督模型。它在 Common Voice 的日语子集上进行了微调,Common Voice 是一个众包朗读语音数据集。模型使用具有对比学习目标的 Transformer 编码器。主要特点包括:12 个 Transformer 块、1024 隐藏维度、4096 前馈网络大小。通过 PyTorch 和 JAX 支持推理。模型输出字符级转录。它在纯净语音上表现特别稳健,并且能够很好地处理各种口音。训练过程利用了 XLSR 微调周资源,优化了词错误率 (WER)。检查点可直接用于 HuggingFace 的 pipeline。
💡核心亮点
- ├─XLSR-53 基础,日语微调
- ├─HuggingFace 上 360 万次下载
- └─Transformer 高精度 ASR
🎯适用人群
- ├─语音识别开发者
- ├─日语自然语言处理研究人员
- └─AI 爱好者