google/siglip2-base-patch16-naflex

🧠 एआई मॉडलgoogle

Google का SigLIP 2 विज़न मॉडल, जो बेहतर ज़ीरो-शॉट इमेज क्लासिफिकेशन के लिए नेटिव फ्लेक्सिबल रिज़ॉल्यूशन प्रदान करता है।

SigLIP 2 विज़न-लैंग्वेज प्री-ट्रेनिंग में एक महत्वपूर्ण विकास का प्रतिनिधित्व करता है। पारंपरिक कंट्रास्टिव मॉडल के विपरीत जो सॉफ्टमैक्स-आधारित लॉस पर निर्भर करते हैं, SigLIP 2 एक सिग्मॉइड लॉस फ़ंक्शन का उपयोग करता है, जो बैच में प्रत्येक जोड़ी को स्वतंत्र रूप से संसाधित करता है, जिससे बेहतर स्केलिंग और प्रशिक्षण स्थिरता मिलती है। 'naflex' (नेटिव फ्लेक्सिबल रिज़ॉल्यूशन) आर्किटेक्चर एक प्रमुख नवाचार है, जो मॉडल को फिक्स्ड-ग्रिड विज़न ट्रांसफॉर्मर्स में देखी जाने वाली प्रदर्शन गिरावट के बिना विभिन्न आस्पेक्ट रेशियो और रिज़ॉल्यूशन की छवियों को प्रोसेस करने में सक्षम बनाता है। यह इसे वास्तविक दुनिया के कार्यों के लिए असाधारण रूप से बहुमुखी बनाता है। तकनीकी रूप से, मॉडल patch-16 कॉन्फ़िगरेशन का उपयोग करता है, जो कम्प्यूटेशनल दक्षता और उच्च-गुणवत्ता वाले फीचर निष्कर्षण के बीच संतुलन बनाता है। यह ट्रांसफॉर्मर्स लाइब्रेरी के साथ पूरी तरह से संगत है और सुरक्षित लोडिंग के लिए safetensors का समर्थन करता है।

💡मुख्य बातें

├─नेटिव फ्लेक्सिबल रिज़ॉल्यूशन सपोर्ट
├─कुशल सिग्मॉइड-आधारित लॉस
└─उच्च-प्रदर्शन ज़ीरो-शॉट क्लासिफिकेशन

🎯के लिए

├─कंप्यूटर विज़न इंजीनियर
├─एआई शोधकर्ता
└─मल्टीमॉडल एप्लिकेशन डेवलपर्स

🔗लिंक

└─हगिंग फेस मॉडल पेज