guyyariv/LaMI

📦 オープンソースプロジェクトguyyariv

LaMIは、レイト・マルチイメージ融合によりLLMの視覚的常識推論能力を強化するフレームワークです。

LaMIは、複雑なマルチイメージ推論タスクにおいて従来の視覚言語モデルが抱えていた限界を解決します。入力層で画像トークンを結合する従来のアーリーフュージョン手法とは異なり、LaMIは「レイトフュージョン」戦略を採用しています。このアーキテクチャ上の革新により、モデルは高解像度の視覚的特徴を維持しつつ、LLMの推論能力を最大限に活用できます。画像を個別に処理してから表現を統合することで、視覚的常識推論ベンチマークにおいて優れたパフォーマンスを発揮します。本フレームワークはモジュール式に設計されており、様々なLLMバックボーンをサポートし、視覚情報を言語モデルに効率的に蒸留する研究を促進します。複数の視覚入力の比較、合成、順次分析を必要とするタスクに特に有効であり、マルチモーダル深層学習における重要な一歩となります。

💡ハイライト

├─ACL 2026採択論文（Oral）
├─レイト・マルチイメージ融合アーキテクチャ
└─視覚的常識推論能力の向上

🎯対象

├─AI研究者
└─マルチモーダル深層学習エンジニア

🔗リンク

└─GitHubリポジトリ