Qwen/Qwen2.5-VL-7B-Instruct
🧠 AI模型Qwen
开源7B视觉语言模型,支持动态分辨率,性能领先。
Qwen2.5-VL-7B-Instruct基于Qwen2.5语言模型,配备处理动态分辨率图像(每边最大1568像素)的视觉编码器。它采用SwiGLU激活函数、RoPE和Qwen2VL注意力机制。该模型在大量图像-文本对和指令数据上训练,支持零样本泛化。它支持高分辨率图像输入、多轮对话,并能理解复杂视觉场景。指令版本针对指令遵循进行了微调。关键创新包括:无需固定图像尺寸的动态分辨率、针对长序列的高效注意力机制,以及与人类偏好对齐。该模型基于Apache 2.0许可发布。