google/paligemma-3b-pt-224

🧠 AIモデルgoogle

Google製の軽量な視覚言語モデル。多様な画像・テキスト変換タスクやマルチモーダル推論を実現。

PaliGemma-3B-PT-224は、効率的なマルチモーダルAIにおける重要な進歩を示すモデルです。SigLIP-So400mビジョンエンコーダーと30億パラメータのGemma言語モデルを統合し、線形投影層を用いて画像埋め込みをテキストモデルの潜在空間にマッピングすることで、比較的小規模なフットプリントで高いパフォーマンスを発揮します。「PT」は事前学習済みチェックポイントであることを示しており、特定のタスクに向けたファインチューニングの強固な基盤となります。多様な視覚入力をサポートし、画像の説明生成、視覚コンテンツに関する質問への回答、構造化データの抽出などが可能です。224x224の解像度は計算効率と視覚的詳細のバランスに優れており、エッジ環境やリソースが制限された環境での高速な推論に適しています。

💡ハイライト

├─30億パラメータのマルチモーダル構成
├─SigLIPビジョンエンコーダーを統合
└─画像・テキスト変換タスクに最適化

🎯対象

├─AI研究者
├─コンピュータビジョンエンジニア
└─マルチモーダルアプリ開発者

🔗リンク

└─Hugging Face モデルページ