laion/clap-htsat-fused
🧠 AI模型laion
基于CLAP和HTSAT融合的零样本音频分类与检索模型。
laion/clap-htsat-fused是一个CLAP模型,采用HTSAT(层级化令牌语义音频Transformer)编码器与RoBERTa文本编码器融合。无需针对特定任务进行微调即可进行零样本音频分类和检索。在LAION的AudioSet及其他大规模音频-文本数据集上训练,在多项音频理解基准测试中表现强劲。模型以PyTorch格式提供,使用safetensors,专为特征提取和音频分类任务设计。其流水线标签为audio-classification,属于LAION开源生态系统。