mesolitica/wav2vec2-xls-r-300m-mixed

🧠 AI 模型mesolitica

基于 Wav2Vec2 XLS-R 300M 的多语言语音识别模型，专为混合语言 ASR 任务设计。

该模型是 Wav2Vec2 XLS-R 300M 的微调版本，原始模型由 Facebook AI 开发，由 mesolitica 针对混合语言自动语音识别场景进行了适配。Wav2Vec2 XLS-R 基于 Transformer 架构，通过在大规模多语言音频数据上进行自监督预训练，学习跨语言语音表征。主要特性包括： - 基于 XLS-R 300M 架构，包含 3 亿参数 - 在混合语言数据集上微调，可处理语言切换和多语言语音 - 同时兼容 PyTorch 和 TensorFlow 框架 - 支持 HuggingFace Transformers、推理端点及 Azure 部署 - 使用 Keras 回调训练流程生成 - 开源并采用宽松许可证，可用于研究和商业用途该模型特别适用于转录包含多种语言的语音，在马来西亚和东南亚等多语言地区是常见场景。它支持 transformers 流水线的自动语音识别标签，可通过 HuggingFace 生态系统轻松集成到生产工作流中。

💡核心亮点

├─Wav2Vec2 XLS-R 300M 微调，专注混合语言 ASR
├─HuggingFace 下载量超百万次
└─兼容 PyTorch 和 TensorFlow

🎯适用人群

├─ASR 研究人员
├─多语言应用开发者
└─语音技术工程师

🔗链接

└─HuggingFace 模型页面