Qwen/Qwen2-VL-2B-Instruct

🧠 AIモデルQwen

2Bパラメータの視覚言語モデルで、画像とテキストに対する指示追従が可能。

Qwen2-VL-2B-Instructは、画像キャプショニング、視覚的質問応答、マルチモーダル対話などのタスクを処理するように設計された視覚言語モデルです。20億パラメータを持ち、safetensorsを使用して効率的に読み込めます。このモデルはQwen2-VLアーキテクチャに基づき、会話能力を向上させるために指示データでファインチューニングされています。transformersライブラリをサポートし、オープンソースライセンスで公開されています。2本のArXiv論文（2409.12191、2308.12966）も併せて公開されています。消費者向けGPUでも動作可能な軽量さでありながら、マルチモーダルベンチマークで高い性能を達成しています。

💡ハイライト

├─2Bパラメータで効率的
├─画像+テキスト入力、テキスト出力
└─オープンソース、指示ファインチューニング

🎯対象

├─AI研究者
├─開発者
└─マルチモーダル愛好家

🔗リンク

└─Hugging Faceモデル