mesolitica/wav2vec2-xls-r-300m-mixed

🧠 AI 모델mesolitica

다국어 혼합 음성 인식 작업을 위한 Wav2Vec2 XLS-R 300M 기반 다국어 음성 인식 모델

이 모델은 Facebook AI에서 개발한 Wav2Vec2 XLS-R 300M의 파인튜닝 버전으로, mesolitica가 혼합 언어 자동 음성 인식을 위해 적용했습니다. 트랜스포머 아키텍처를 기반으로 구축된 Wav2Vec2 XLS-R은 대규모 다국어 오디오 데이터에 대한 자기지도 사전학습을 통해 언어 간 음성 표현을 학습합니다. 주요 특징: - 3억 개의 파라미터를 포함하는 XLS-R 300M 아키텍처 기반 - 코드 스위칭 및 다국어 음성 처리를 위한 혼합 언어 데이터셋으로 파인튜닝됨 - PyTorch 및 TensorFlow 프레임워크 모두 호환 - HuggingFace Transformers, Inference Endpoints 및 Azure 배포 지원 - Keras 콜백 학습 파이프라인을 사용하여 생성됨 - 연구 및 상업적 사용을 위한 허용적 라이선스의 오픈소스 이 모델은 말레이시아 및 동남아시아와 같은 다국어 지역에서 흔히 발생하는 여러 언어가 포함된 음성을 전사하는 데 특히 유용합니다. 자동 음성 인식을 위한 transformers 파이프라인 태그를 지원하며, HuggingFace 생태계를 통해 프로덕션 워크플로우에 쉽게 통합할 수 있습니다.

💡하이라이트

├─혼합 언어 ASR용 Wav2Vec2 XLS-R 300M 파인튜닝
├─HuggingFace에서 100만 회 이상 다운로드
└─PyTorch 및 TensorFlow 지원

🎯대상

├─ASR 연구자
├─다국어 애플리케이션 개발자
└─음성 기술 엔지니어

🔗링크

└─HuggingFace 모델 페이지