Qwen/Qwen3-VL-2B-Instruct
🧠 AI模型Qwen
2B多模态视觉-语言模型,用于图像-文本到文本任务。
Qwen3-VL-2B-Instruct是Qwen3-VL系列中的紧凑型多模态模型,结合了视觉编码器和Qwen3语言主干。它支持灵活的图像分辨率,实现细粒度视觉理解,并支持场景文字识别、图表理解和多轮对话等任务。该模型使用与更大变体相同的训练方案,并在Apache-2.0许可证下提供。它可与transformers和vLLM一起使用,接受交错图像-文本输入。
💡核心亮点
- ├─2B参数,Apache-2.0许可证
- ├─支持高分辨率图像和视频
- └─基于Qwen3指令架构
🎯适用人群
- ├─AI研究人员
- ├─多模态应用开发者
- └─计算机视觉工程师