Qwen/Qwen3-VL-4B-Instruct
🧠 AIモデルQwen
Qwen製の画像・テキスト入力に対応した4Bパラメータの命令チューニング済みVLM。
Qwen3-VL-4B-InstructはQwenシリーズのマルチモーダルトランスフォーマーモデルで、画像テキスト間のタスク向けに設計されています。デコーダーのみのアーキテクチャとsafetensorsを採用し、高解像度画像入力に対応して詳細な視覚説明、視覚質問応答、対話型インタラクションを実現。多様な画像テキストペアと人間のフィードバックで命令チューニングされ、MMBenchやDocVQAなどのベンチマークで強力な性能を示します。40億パラメータで効率と性能のバランスが取れており、研究やアプリケーションへの導入に適しています。Apache-2.0ライセンスで自由に利用可能で、コミュニティによる適応やファインチューニングを促進します。技術詳細はarxiv論文2505.09388、2502.13923、2409.12191を参照してください。
💡ハイライト
- ├─4Bパラメータの軽量VLM
- ├─命令追従型対話に対応
- └─Apache-2.0ライセンスで公開
🎯対象
- ├─AI研究者
- ├─開発者
- └─マルチモーダル愛好家