HuggingFaceTB/SmolVLM-256M-Instruct

🧠 AI मॉडलHuggingFaceTB

एज डिवाइसों पर कुशल इमेज-टू-टेक्स्ट कार्यों के लिए डिज़ाइन किया गया एक कॉम्पैक्ट, उच्च-प्रदर्शन वाला विज़न-लैंग्वेज मॉडल।

SmolVLM-256M-Instruct कुशल AI में एक महत्वपूर्ण मील का पत्थर है, जो यह साबित करता है कि विज़न-लैंग्वेज क्षमताओं के लिए हमेशा विशाल कंप्यूट संसाधनों की आवश्यकता नहीं होती है। Idefics3 फ्रेमवर्क पर आधारित, यह मॉडल विशेष रूप से इमेज-टेक्स्ट-टू-टेक्स्ट पाइपलाइनों के लिए इंजीनियर किया गया है। इसका छोटा आकार तेज़ इन्फरेंस की अनुमति देता है, जिससे यह एज हार्डवेयर, मोबाइल डिवाइस या स्थानीय ब्राउज़र-आधारित अनुप्रयोगों पर तैनाती के लिए एक प्रमुख उम्मीदवार बन जाता है। यह मॉडल ONNX और Safetensors फॉर्मेट का समर्थन करता है, जो मौजूदा मशीन लर्निंग वर्कफ़्लो में सहज एकीकरण सुनिश्चित करता है। The Cauldron और Docmatix जैसे विविध डेटासेट पर प्रशिक्षण के माध्यम से, यह मॉडल दृश्य इनपुट को समझने और सुसंगत, संदर्भ-जागरूक पाठ प्रतिक्रियाएं उत्पन्न करने में उत्कृष्ट है। यह इसे दस्तावेज़ विश्लेषण, इमेज कैप्शनिंग और हल्के विज़ुअल क्वेश्चन आंसरिंग जैसे कार्यों के लिए अत्यधिक प्रभावी बनाता है, बिना बड़े मॉडलों के लेटेंसी ओवरहेड के।

💡मुख्य बातें

├─एज दक्षता के लिए 256M पैरामीटर्स
├─Idefics3-आधारित विज़न आर्किटेक्चर
└─इमेज-टू-टेक्स्ट कार्यों के लिए अनुकूलित

🎯के लिए

├─एज AI डेवलपर्स
├─मोबाइल ऐप इंजीनियर
└─कंप्यूटर विज़न शोधकर्ता

🔗लिंक

└─Hugging Face मॉडल पेज