InternVL2-2B

🧠 AIモデルOpenGVLab

OpenGVLabによる画像・テキスト理解のためのコンパクトな2Bマルチモーダルモデル。

InternVL2-2Bは、OpenGVLabによる2024年の論文で発表されたInternVL2シリーズのオープンソース・マルチモーダル大規模言語モデルです。約20億のパラメータを備え、強力な視覚エンコーダと言語モデルを統合し、シームレスな画像・テキスト理解を実現します。視覚質問応答、画像キャプション生成、文書理解、グラウンデッド推論など幅広いマルチモーダルタスクをサポートします。動的高解像度画像処理とプログレッシブアライメント学習戦略を活用しています。多言語会話に対応し、民生用ハードウェアへのデプロイメントに最適化されており、InternVL2ラインナップの中で最もアクセシブルなモデルの一つです。Transformersライブラリのカスタムコードを使用し、safetensors形式をサポートしています。arxiv:2312.14238で記述されたInternVLアーキテクチャをベースに、第1世代と比較してOCR、文書解析、実世界のマルチモーダル理解が大幅に向上しています。

💡ハイライト

├─2Bパラメータの視覚言語モデル
├─動的高解像度画像処理
├─多言語マルチモーダル対応
└─OCR・文書理解に優れる

🎯対象

├─ML研究者
├─マルチモーダルAI開発者
└─エッジデプロイメントエンジニア

🔗リンク

├─HuggingFaceモデルページ
└─研究論文