jonatasgrosman/wav2vec2-large-xlsr-53-japanese

🧠 AI 모델jonatasgrosman

일본어로 미세 조정된 Wav2Vec2-XLSR-53, 최첨단 음성 인식.

모델은 53개 언어로 사전 훈련된 자기지도 학습 모델인 Wav2Vec2-XLSR-53 아키텍처를 기반으로 합니다. 크라우드소싱된 읽기 음성 데이터셋인 Common Voice의 일본어 하위 집합으로 미세 조정되었습니다. 대조 학습 목표를 가진 트랜스포머 인코더를 사용합니다. 주요 특징으로는 12개의 트랜스포머 블록, 1024의 은닉 차원, 4096의 피드포워드 크기가 있습니다. 추론은 PyTorch와 JAX를 통해 지원됩니다. 모델은 문자 수준의 전사를 출력합니다. 깨끗한 음성에 특히 강건하며 다양한 억양에서도 잘 작동합니다. 훈련 과정은 XLSR Fine-Tuning Week 리소스를 활용하여 단어 오류율(WER) 최적화를 목표로 했습니다. 체크포인트는 Hugging Face 파이프라인에서 직접 사용할 수 있습니다.

💡하이라이트

├─XLSR-53 기반, 일본어로 미세 조정
├─HuggingFace에서 360만 다운로드
└─트랜스포머 기반 고정밀 ASR

🎯대상

├─음성 인식 개발자
├─일본어 NLP 연구자
└─AI 애호가

🔗링크

└─Hugging Face 모델 카드