mesolitica/wav2vec2-xls-r-300m-mixed
🧠 AI 模型mesolitica
基于 Wav2Vec2 XLS-R 300M 的多语言语音识别模型,专为混合语言 ASR 任务设计。
该模型是 Wav2Vec2 XLS-R 300M 的微调版本,原始模型由 Facebook AI 开发,由 mesolitica 针对混合语言自动语音识别场景进行了适配。Wav2Vec2 XLS-R 基于 Transformer 架构,通过在大规模多语言音频数据上进行自监督预训练,学习跨语言语音表征。
主要特性包括:
- 基于 XLS-R 300M 架构,包含 3 亿参数
- 在混合语言数据集上微调,可处理语言切换和多语言语音
- 同时兼容 PyTorch 和 TensorFlow 框架
- 支持 HuggingFace Transformers、推理端点及 Azure 部署
- 使用 Keras 回调训练流程生成
- 开源并采用宽松许可证,可用于研究和商业用途
该模型特别适用于转录包含多种语言的语音,在马来西亚和东南亚等多语言地区是常见场景。它支持 transformers 流水线的自动语音识别标签,可通过 HuggingFace 生态系统轻松集成到生产工作流中。
💡核心亮点
- ├─Wav2Vec2 XLS-R 300M 微调,专注混合语言 ASR
- ├─HuggingFace 下载量超百万次
- └─兼容 PyTorch 和 TensorFlow
🎯适用人群
- ├─ASR 研究人员
- ├─多语言应用开发者
- └─语音技术工程师