Qwen/Qwen2.5-VL-7B-Instruct

🧠 AIモデルQwen

オープンソースの7B視覚言語モデル、動的解像度と最先端性能。

Qwen2.5-VL-7B-Instructは、Qwen2.5言語モデルを基に、動的解像度（一辺最大1568ピクセル）を扱える視覚エンコーダを搭載。SwiGLU活性化関数、RoPE、Qwen2VL注意機構を採用。大規模な画像テキストペアと指示データで学習し、ゼロショット汎化が可能。高解像度画像入力、マルチターン対話、複雑な視覚シナリオの理解に対応。指示版は指示追従用に微調整。固定画像サイズ不要な動的解像度、長い系列に対する効率的な注意機構、人間の嗜好との整合性が革新点。Apache 2.0ライセンスで公開。

💡ハイライト

├─7Bパラメータ、動的解像度
├─ダウンロード520万以上
└─Apache 2.0ライセンス

🎯対象

├─AI研究者
├─機械学習エンジニア
└─ホビイスト

🔗リンク

└─HuggingFaceモデル