laion/clap-htsat-fused
🧠 AI 모델laion
제로샷 오디오 분류 및 검색을 위한 CLAP과 HTSAT 퓨전 모델
laion/clap-htsat-fused는 HTSAT(Hierarchical Token Semantic Audio Transformer) 인코더와 RoBERTa 텍스트 인코더를 퓨전한 CLAP 모델입니다. 작업별 미세 조정 없이 제로샷 오디오 분류 및 검색을 지원합니다. LAION의 AudioSet 및 기타 대규모 오디오-텍스트 데이터셋으로 훈련되어 다양한 오디오 이해 벤치마크에서 뛰어난 성능을 보입니다. PyTorch와 safetensors 형식으로 제공되며, 특징 추출 및 오디오 분류 작업에 사용됩니다. 파이프라인 태그는 audio-classification이며, LAION 오픈소스 생태계의 일부입니다.