wav2vec2-large-xlsr-53-chinese-zh-cn

🧠 AI 모델jonatasgrosman

만다린 중국어 음성 인식을 위한 wav2vec2 XLSR-53 파인튜닝 모델, Common Voice 데이터로 학습

이 모델은 Facebook의 wav2vec2-large-xlsr-53을 특화적으로 개량한 것으로, 53개 언어에 걸친 다국어 데이터로 사전 학습된 대규모 자기지도 음성 표현 모델입니다. 중국어-zh-cn 변형은 만다린 중국어 음성 인식 작업을 위해 Common Voice 데이터셋으로 파인튜닝되었습니다. 기본 아키텍처는 자기지도 학습을 활용하여 강력한 음성 특징을 추출하며, 이는 트랜스포머 기반 파인튜닝 레이어를 통해 중국어 문자 출력으로 매핑됩니다. PyTorch, TensorFlow, JAX 프레임워크를 지원하여 다양한 배포 시나리오에서 높은 활용도를 자랑합니다. HuggingFace의 transformers 라이브러리에서 AutoModelForCTC 클래스를 통해 쉽게 로드할 수 있어, 중국어 사용자를 대상으로 하는 전사 파이프라인, 접근성 도구, 음성 기반 애플리케이션에 손쉽게 통합할 수 있습니다.

💡하이라이트

├─만다린 중국어(zh-cn)용 XLSR-53 파인튜닝
├─Common Voice 데이터셋으로 학습
└─HuggingFace 다운로드 100만 회 이상

🎯대상

├─ASR 연구자
├─NLP 개발자
└─접근성 도구 개발자

🔗링크

└─HuggingFace 모델 페이지