Qwen/Qwen3-VL-2B-Instruct

🧠 AI模型Qwen

2B多模态视觉-语言模型，用于图像-文本到文本任务。

Qwen3-VL-2B-Instruct是Qwen3-VL系列中的紧凑型多模态模型，结合了视觉编码器和Qwen3语言主干。它支持灵活的图像分辨率，实现细粒度视觉理解，并支持场景文字识别、图表理解和多轮对话等任务。该模型使用与更大变体相同的训练方案，并在Apache-2.0许可证下提供。它可与transformers和vLLM一起使用，接受交错图像-文本输入。

💡核心亮点

├─2B参数，Apache-2.0许可证
├─支持高分辨率图像和视频
└─基于Qwen3指令架构

🎯适用人群

├─AI研究人员
├─多模态应用开发者
└─计算机视觉工程师

🔗链接

└─HuggingFace模型卡片