Qwen/Qwen2.5-VL-7B-Instruct

🧠 AI模型Qwen

开源7B视觉语言模型，支持动态分辨率，性能领先。

Qwen2.5-VL-7B-Instruct基于Qwen2.5语言模型，配备处理动态分辨率图像（每边最大1568像素）的视觉编码器。它采用SwiGLU激活函数、RoPE和Qwen2VL注意力机制。该模型在大量图像-文本对和指令数据上训练，支持零样本泛化。它支持高分辨率图像输入、多轮对话，并能理解复杂视觉场景。指令版本针对指令遵循进行了微调。关键创新包括：无需固定图像尺寸的动态分辨率、针对长序列的高效注意力机制，以及与人类偏好对齐。该模型基于Apache 2.0许可发布。

💡核心亮点

├─70亿参数，动态分辨率
├─520万+下载，1583点赞
└─开源Apache 2.0许可

🎯适用人群

├─AI研究人员
├─机器学习工程师
└─爱好者

🔗链接

└─HuggingFace模型