pyannote/wespeaker-voxceleb-resnet34-LM

🧠 AI 모델pyannote

VoxCeleb에서 훈련된 ResNet34 기반 최첨단 화자 검증 모델.

pyannote/wespeaker-voxceleb-resnet34-LM 모델은 WeSpeaker 프로젝트에서 미세 조정된 오픈소스 화자 검증 모델입니다. 34개의 컨볼루션 레이어를 가진 ResNet34 백본과 대규모 마진(Large Margin) 학습 목표를 사용하여 화자 구별 능력을 향상시킵니다. 이 모델은 수천 명의 유명 인사 음성 세그먼트가 포함된 VoxCeleb1 및 VoxCeleb2 데이터셋으로 훈련되었습니다. 주요 특징으로는 잡음 환경에서의 강건한 성능, 화자 임베딩 추출, 그리고 화자 분할 및 인식 작업을 위한 pyannote-audio 파이프라인과의 통합이 있습니다. 이 모델은 발화당 512차원 임베딩 벡터를 출력하며, 코사인 유사도 또는 PLDA 점수 계산에 적합합니다. 520만 회 이상의 다운로드로, 화자 식별, 인증 및 음성 생체 인식 분야에서 연구 및 산업 전반에 널리 사용됩니다.

💡하이라이트

├─500만+ 다운로드
├─ResNet34 백본
└─VoxCeleb 훈련

🎯대상

├─음성 연구자
├─생체 인식 엔지니어
└─음성 애플리케이션 개발자

🔗링크

└─허깅페이스