llava-hf/llava-1.5-7b-hf

🧠 AI模型llava-hf

结合CLIP与Vicuna的视觉-语言模型，用于图文任务。

LLaVA-1.5-7b模型（HuggingFace上llava-hf/llava-1.5-7b-hf）是一个为图像-文本-文本任务设计的多模态模型。架构上，使用CLIP ViT-L/14视觉编码器提取图像特征，Vicuna-7B语言模型（微调后的LLaMA-2）作为文本解码器，并通过可学习的线性投影对齐视觉和语言模态。模型在LLaVA-Instruct-150K数据集上微调，该数据集由原始LLaVA数据集中过滤出的指令遵循数据组成。支持零样本图像字幕、视觉问答（VQA）以及涉及图像的对话交互。模型遵循LLaMA 2许可证发布，兼容HuggingFace Transformers。下载量超过220万，已成为开源多模态研究的流行基准。

💡核心亮点

├─CLIP ViT-L + Vicuna 7B
├─基于LLaVA-Instruct-150K训练
└─开源且遵循LLaMA 2许可证

🎯适用人群

├─AI研究人员
├─计算机视觉工程师
└─多模态AI开发者

🔗链接

└─HuggingFace模型页面