Harveenchadha/vakyansh-wav2vec2-tamil-tam-250

🧠 AI 모델Harveenchadha

타밀어 음성 인식을 위해 미세 조정된 Wav2Vec2 모델, 2억5000만 파라미터.

이 모델은 타밀어 음성 인식에 특화된 Wav2Vec2 아키텍처의 미세 조정 버전입니다. 사전 학습된 wav2vec2 체크포인트를 기반으로 한 Wav2Vec2ForCTC 모델을 사용하며, Vakyansh 프로젝트의 250시간 타밀어 음성 데이터로 미세 조정되었습니다. 12층 트랜스포머 인코더와 약 2억5천만 개의 파라미터를 사용합니다. 16kHz 오디오를 처리하고 연결주의 시간 분류(CTC)를 통해 텍스트를 출력합니다. 주요 혁신으로는 학습률 스케줄, 그래디언트 체크포인팅, 혼합 정밀도 학습이 있습니다. 표준 타밀어 벤치마크에서 약 10-15%의 WER(단어 오류율)을 달성합니다. HuggingFace Transformers 라이브러리와 호환되며 추론 또는 추가 미세 조정에 사용할 수 있습니다.

💡하이라이트

├─2억5000만 파라미터, 12개 트랜스포머 층
├─250시간 타밀어 음성으로 미세 조정
└─HuggingFace에서 130만 회 이상 다운로드

🎯대상

├─NLP 연구자
├─ASR 개발자
└─타밀어 언어 기술 애호가

🔗링크

└─HuggingFace 모델 페이지