Qwen/Qwen3-VL-4B-Instruct

🧠 AIモデルQwen

Qwen製の画像・テキスト入力に対応した4Bパラメータの命令チューニング済みVLM。

Qwen3-VL-4B-InstructはQwenシリーズのマルチモーダルトランスフォーマーモデルで、画像テキスト間のタスク向けに設計されています。デコーダーのみのアーキテクチャとsafetensorsを採用し、高解像度画像入力に対応して詳細な視覚説明、視覚質問応答、対話型インタラクションを実現。多様な画像テキストペアと人間のフィードバックで命令チューニングされ、MMBenchやDocVQAなどのベンチマークで強力な性能を示します。40億パラメータで効率と性能のバランスが取れており、研究やアプリケーションへの導入に適しています。Apache-2.0ライセンスで自由に利用可能で、コミュニティによる適応やファインチューニングを促進します。技術詳細はarxiv論文2505.09388、2502.13923、2409.12191を参照してください。

💡ハイライト

├─4Bパラメータの軽量VLM
├─命令追従型対話に対応
└─Apache-2.0ライセンスで公開

🎯対象

├─AI研究者
├─開発者
└─マルチモーダル愛好家

🔗リンク

└─HuggingFaceモデルページ