llava-hf/llava-1.5-7b-hf
🧠 AI模型llava-hf
结合CLIP与Vicuna的视觉-语言模型,用于图文任务。
LLaVA-1.5-7b模型(HuggingFace上llava-hf/llava-1.5-7b-hf)是一个为图像-文本-文本任务设计的多模态模型。架构上,使用CLIP ViT-L/14视觉编码器提取图像特征,Vicuna-7B语言模型(微调后的LLaMA-2)作为文本解码器,并通过可学习的线性投影对齐视觉和语言模态。模型在LLaVA-Instruct-150K数据集上微调,该数据集由原始LLaVA数据集中过滤出的指令遵循数据组成。支持零样本图像字幕、视觉问答(VQA)以及涉及图像的对话交互。模型遵循LLaMA 2许可证发布,兼容HuggingFace Transformers。下载量超过220万,已成为开源多模态研究的流行基准。
💡核心亮点
- ├─CLIP ViT-L + Vicuna 7B
- ├─基于LLaVA-Instruct-150K训练
- └─开源且遵循LLaMA 2许可证
🎯适用人群
- ├─AI研究人员
- ├─计算机视觉工程师
- └─多模态AI开发者