anuragshas/wav2vec2-large-xlsr-53-telugu

🧠 AI 모델anuragshas

텔루구어 자동 음성 인식을 위한 파인튜닝된 Wav2Vec2 모델, 176만 다운로드.

wav2vec2-large-xlsr-53-telugu 모델은 텔루구어에 특화된 트랜스포머 기반 자동 음성 인식(ASR) 시스템입니다. 자기 지도 학습으로 사전 훈련된 XLSR-53 모델(53개 언어)을 활용하여 OpenSLR의 데이터셋을 통해 텔루구어에 적응시킵니다. 이 모델은 연결성 시간 분류(CTC)를 위한 선형 헤드가 있는 Wav2Vec2ForCTC 아키텍처를 사용합니다. 주요 혁신으로는 53개 언어에서 저자원 언어로의 교차 언어 전이를 통해 비교적 적은 파인튜닝 데이터로 높은 정확도를 달성하는 것입니다. PyTorch와 JAX 프레임워크를 모두 지원하며, Hugging Face의 파이프라인과 호환되어 쉽게 배포할 수 있습니다. 이 모델은 허용적인 라이선스 하에 오픈소스로 제공되어 텔루구어 음성 기술의 연구 및 응용을 장려합니다.

💡하이라이트

├─176만 다운로드, 5개 좋아요
├─XLSR-53 기반 텔루구어 OpenSLR 파인튜닝
└─오픈소스, 허깅페이스 호환

🎯대상

├─ASR 연구자
├─텔루구어 기술자
└─음성 인식 엔지니어

🔗링크

└─허깅페이스 모델