Harveenchadha/vakyansh-wav2vec2-tamil-tam-250

🧠 AI模型Harveenchadha

针对泰米尔语语音识别微调的Wav2Vec2模型，2.5亿参数。

此模型是基于Wav2Vec2架构针对泰米尔语语音识别微调的版本。使用Wav2Vec2ForCTC模型，加载预训练wav2vec2检查点，然后在Vakyansh项目的250小时泰米尔语语音数据上微调。模型包含12层Transformer编码器，约2.5亿参数。处理16kHz音频，通过连接主义时间分类（CTC）输出文本。关键创新包括学习率调度、梯度检查点和混合精度训练。在标准泰米尔语基准测试中，词错误率（WER）约为10-15%。与HuggingFace Transformers库兼容，可用于推理或进一步微调。

💡核心亮点

├─2.5亿参数，12个Transformer层
├─在250小时泰米尔语语音上微调
└─HuggingFace上130万+下载

🎯适用人群

├─NLP研究人员
├─ASR开发者
└─泰米尔语技术爱好者

🔗链接

└─HuggingFace模型页面