mesolitica/wav2vec2-xls-r-300m-mixed
🧠 AI 모델mesolitica
다국어 혼합 음성 인식 작업을 위한 Wav2Vec2 XLS-R 300M 기반 다국어 음성 인식 모델
이 모델은 Facebook AI에서 개발한 Wav2Vec2 XLS-R 300M의 파인튜닝 버전으로, mesolitica가 혼합 언어 자동 음성 인식을 위해 적용했습니다. 트랜스포머 아키텍처를 기반으로 구축된 Wav2Vec2 XLS-R은 대규모 다국어 오디오 데이터에 대한 자기지도 사전학습을 통해 언어 간 음성 표현을 학습합니다.
주요 특징:
- 3억 개의 파라미터를 포함하는 XLS-R 300M 아키텍처 기반
- 코드 스위칭 및 다국어 음성 처리를 위한 혼합 언어 데이터셋으로 파인튜닝됨
- PyTorch 및 TensorFlow 프레임워크 모두 호환
- HuggingFace Transformers, Inference Endpoints 및 Azure 배포 지원
- Keras 콜백 학습 파이프라인을 사용하여 생성됨
- 연구 및 상업적 사용을 위한 허용적 라이선스의 오픈소스
이 모델은 말레이시아 및 동남아시아와 같은 다국어 지역에서 흔히 발생하는 여러 언어가 포함된 음성을 전사하는 데 특히 유용합니다. 자동 음성 인식을 위한 transformers 파이프라인 태그를 지원하며, HuggingFace 생태계를 통해 프로덕션 워크플로우에 쉽게 통합할 수 있습니다.
💡하이라이트
- ├─혼합 언어 ASR용 Wav2Vec2 XLS-R 300M 파인튜닝
- ├─HuggingFace에서 100만 회 이상 다운로드
- └─PyTorch 및 TensorFlow 지원
🎯대상
- ├─ASR 연구자
- ├─다국어 애플리케이션 개발자
- └─음성 기술 엔지니어