laion/clap-htsat-fused

🧠 AI 모델laion

제로샷 오디오 분류 및 검색을 위한 CLAP과 HTSAT 퓨전 모델

laion/clap-htsat-fused는 HTSAT(Hierarchical Token Semantic Audio Transformer) 인코더와 RoBERTa 텍스트 인코더를 퓨전한 CLAP 모델입니다. 작업별 미세 조정 없이 제로샷 오디오 분류 및 검색을 지원합니다. LAION의 AudioSet 및 기타 대규모 오디오-텍스트 데이터셋으로 훈련되어 다양한 오디오 이해 벤치마크에서 뛰어난 성능을 보입니다. PyTorch와 safetensors 형식으로 제공되며, 특징 추출 및 오디오 분류 작업에 사용됩니다. 파이프라인 태그는 audio-classification이며, LAION 오픈소스 생태계의 일부입니다.

💡하이라이트

├─1,244만+ 다운로드
├─제로샷 오디오 분류
└─HTSAT 인코더 + RoBERTa 융합

🎯대상

├─AI 연구자
├─머신러닝 엔지니어
└─오디오 개발자

🔗링크

└─모델 카드