Harveenchadha/vakyansh-wav2vec2-tamil-tam-250
🧠 AI模型Harveenchadha
针对泰米尔语语音识别微调的Wav2Vec2模型,2.5亿参数。
此模型是基于Wav2Vec2架构针对泰米尔语语音识别微调的版本。使用Wav2Vec2ForCTC模型,加载预训练wav2vec2检查点,然后在Vakyansh项目的250小时泰米尔语语音数据上微调。模型包含12层Transformer编码器,约2.5亿参数。处理16kHz音频,通过连接主义时间分类(CTC)输出文本。关键创新包括学习率调度、梯度检查点和混合精度训练。在标准泰米尔语基准测试中,词错误率(WER)约为10-15%。与HuggingFace Transformers库兼容,可用于推理或进一步微调。
💡核心亮点
- ├─2.5亿参数,12个Transformer层
- ├─在250小时泰米尔语语音上微调
- └─HuggingFace上130万+下载
🎯适用人群
- ├─NLP研究人员
- ├─ASR开发者
- └─泰米尔语技术爱好者