laion/clap-htsat-fused
🧠 AIモデルlaion
CLAPとHTSAT融合によるゼロショット音声分類と検索。
laion/clap-htsat-fused は、HTSAT(階層トークンセマンティック音声トランスフォーマー)エンコーダと RoBERTa テキストエンコーダを融合した CLAP モデルです。タスク固有の微調整なしでゼロショット音声分類と検索をサポート。LAION の AudioSet やその他の大規模音声-テキストデータセットで学習され、様々な音声理解ベンチマークで強力な性能を達成。PyTorch と safetensors 形式で提供され、特徴抽出や音声分類タスク向けに設計。パイプラインタグは audio-classification で、LAION のオープンソースエコシステムの一部です。