Qwen/Qwen2-VL-7B-Instruct

🧠 AI मॉडलQwen

ओपन-सोर्स मल्टीमॉडल विज़न-भाषा मॉडल जो छवि समझ और वार्तालाप के लिए है।

Qwen2-VL-7B-Instruct Qwen2-VL परिवार का हिस्सा है, जिसमें बिना क्रॉप किए विभिन्न आकारों की छवियों को संसाधित करने के लिए एक गतिशील रिज़ॉल्यूशन तंत्र है। यह बहुभाषी समझ का समर्थन करता है और एक साथ कई छवियों को संभाल सकता है। मॉडल transformers और safetensors का उपयोग करता है, जिसका पाइपलाइन टैग image-text-to-text है। यह विविध डेटासेट पर प्रशिक्षित है और MMMU, MathVista, और DocVQA जैसे बेंचमार्क पर मजबूत प्रदर्शन प्राप्त करता है। instruct संस्करण संवादात्मक बातचीत के लिए फाइन-ट्यून किया गया है। 1.48M डाउनलोड के साथ, इसका व्यापक रूप से अनुसंधान और अनुप्रयोगों में उपयोग किया जाता है।

💡मुख्य बातें

├─7B पैरामीटर
├─गतिशील रिज़ॉल्यूशन प्रसंस्करण
└─मल्टीमॉडल संवादी AI

🎯के लिए

├─शोधकर्ता
├─AI डेवलपर्स
└─शौकिया

🔗लिंक

└─HuggingFace मॉडल पेज