Qwen/Qwen2-VL-7B-Instruct

🧠 AI 모델Qwen

이미지 이해와 대화를 위한 오픈소스 멀티모달 비전-언어 모델.

Qwen2-VL-7B-Instruct는 Qwen2-VL 제품군의 일부로, 이미지를 자르지 않고 다양한 크기로 처리할 수 있는 동적 해상도 메커니즘을 특징으로 합니다. 다국어 이해를 지원하며 여러 이미지를 동시에 처리할 수 있습니다. 이 모델은 transformers와 safetensors를 사용하며, 파이프라인 태그는 image-text-to-text입니다. 다양한 데이터셋으로 훈련되었으며 MMMU, MathVista, DocVQA 등의 벤치마크에서 강력한 성능을 보입니다. Instruct 버전은 대화형 상호작용에 맞게 미세 조정되었습니다. 148만 회 다운로드로 연구 및 응용 분야에서 널리 사용됩니다.

💡하이라이트

├─70억 파라미터 크기의 모델
├─동적 해상도를 활용한 이미지 처리
└─멀티모달 대화형 인공지능 모델

🎯대상

├─연구자
├─AI 개발자
└─취미 개발자

🔗링크

└─HuggingFace 모델 페이지