Qwen/Qwen2.5-VL-7B-Instruct
🧠 AIモデルQwen
オープンソースの7B視覚言語モデル、動的解像度と最先端性能。
Qwen2.5-VL-7B-Instructは、Qwen2.5言語モデルを基に、動的解像度(一辺最大1568ピクセル)を扱える視覚エンコーダを搭載。SwiGLU活性化関数、RoPE、Qwen2VL注意機構を採用。大規模な画像テキストペアと指示データで学習し、ゼロショット汎化が可能。高解像度画像入力、マルチターン対話、複雑な視覚シナリオの理解に対応。指示版は指示追従用に微調整。固定画像サイズ不要な動的解像度、長い系列に対する効率的な注意機構、人間の嗜好との整合性が革新点。Apache 2.0ライセンスで公開。
💡ハイライト
- ├─7Bパラメータ、動的解像度
- ├─ダウンロード520万以上
- └─Apache 2.0ライセンス
🎯対象
- ├─AI研究者
- ├─機械学習エンジニア
- └─ホビイスト