google/siglip-so400m-patch14-384

🧠 AIモデルgoogle

Googleが開発した、ゼロショット画像分類で最高性能を誇る高性能SigLIPビジョンモデル。

SigLIP so400m-patch14-384モデルは、視覚言語事前学習における重要な進化を象徴しています。Softmaxベースの対照損失に依存する標準的なCLIPモデルとは異なり、SigLIPは画像とテキストのペアに対して独立して機能するシグモイド損失関数を採用しています。このアプローチは計算効率に優れているだけでなく、ゼロショット分類のベンチマークにおいて優れたパフォーマンスを発揮します。4億のパラメータとパッチサイズ14、384x384ピクセルの高解像度入力に最適化されており、微細な視覚的特徴を捉えることが可能です。Hugging Face Transformersライブラリと完全に互換性があり、安全で高速な読み込みが可能なsafetensorsをサポートしています。学習中に画像エンコーダーとテキストエンコーダーを分離することで、より優れたスケーリング特性と高速な収束を実現し、AIエコシステムにおける従来のビジョンエンコーダーに代わる現代的な選択肢となっています。

💡ハイライト

├─4億パラメータのビジョンエンコーダー
├─スケーリングを最適化するシグモイド損失
└─384x384の高解像度入力に対応

🎯対象

├─コンピュータビジョンエンジニア
├─AI研究者
└─機械学習開発者

🔗リンク

└─Hugging Face モデルページ