kingabzpro/wav2vec2-large-xls-r-300m-Urdu
🧠 AI 모델kingabzpro
페이스북의 wav2vec2-xls-r-300m을 Common Voice 8.0 데이터로 미세 조정한 우르두어 음성 인식 모델입니다.
kingabzpro/wav2vec2-large-xls-r-300m-Urdu 모델은 페이스북의 wav2vec2-xls-r-300m을 우르두어 음성 인식에 특화되도록 미세 조정한 변종입니다. XLS-R 아키텍처의 자기 지도 학습 기능을 활용하며, 이는 128개 언어로 사전 학습되었고 Common Voice 8.0 데이터셋을 사용하여 우르두어에 적용됩니다. 모델은 Wav2Vec2ForCTC 아키텍처를 사용하며, 상단에 선형 레이어를 추가하여 CTC(연결 시간 분류) 디코딩을 수행합니다. 학습은 HuggingFace Transformers 라이브러리로 수행되었으며, 혼합 정밀도와 그래디언트 누적을 사용했을 가능성이 높습니다. 주요 특징으로는 3억 개의 파라미터, 효율적인 로딩을 위한 safetensors 형식, HuggingFace ASR 파이프라인과의 호환성이 있습니다. 모델은 우르두어의 고유한 음성 특성과 문자를 처리하도록 최적화되었으며, 오디오 파일이나 실시간 음성을 텍스트로 변환하는 데 사용될 수 있습니다. 음성 비서, 전사 서비스, 언어 학습 도구 등에 적용 가능합니다.
💡하이라이트
- ├─Common Voice 우르두어로 미세 조정
- ├─XLS-R 300M 기반
- └─HuggingFace 130만 회 이상 다운로드
🎯대상
- ├─우르두어 사용자
- ├─ASR 연구자
- └─NLP 엔지니어