demidovd98/sm-vit

📦 ओपन सोर्स प्रोजेक्टdemidovd98

फाइन-ग्रेन्ड इमेज क्लासिफिकेशन के लिए सेलियंट मास्क-गाइडेड विजन ट्रांसफॉर्मर आर्किटेक्चर।

SM-ViT विजन ट्रांसफॉर्मर (ViT) आर्किटेक्चर में एक सेलियंट मास्क-गाइडेड मॉड्यूल को शामिल करके फाइन-ग्रेन्ड क्लासिफिकेशन की चुनौती का समाधान करता है। मानक ViT के विपरीत, जो सभी इमेज पैच को समान महत्व देते हैं, SM-ViT जानकारीपूर्ण क्षेत्रों को उजागर करने के लिए सेलियंसी-गाइडेड मैकेनिज्म का उपयोग करता है। अनावश्यक बैकग्राउंड नॉइज़ को हटाकर और महत्वपूर्ण विशेषताओं पर जोर देकर, यह मॉडल समान दिखने वाली श्रेणियों के बीच अंतर करने में उच्च सटीकता प्राप्त करता है। यह रिपॉजिटरी आधिकारिक कार्यान्वयन प्रदान करती है, जिसमें पायथन में ट्रेनिंग स्क्रिप्ट और मॉडल आर्किटेक्चर परिभाषाएं शामिल हैं। इसे उन शोधकर्ताओं और डेवलपर्स के लिए डिज़ाइन किया गया है जो जटिल, फाइन-ग्रेन्ड डेटासेट से उच्च-स्तरीय फीचर एक्सट्रैक्शन पर काम कर रहे हैं। यह प्रोजेक्ट दिखाता है कि कैसे ट्रांसफॉर्मर-आधारित विजन मॉडल की मजबूती और व्याख्यात्मकता को बढ़ाने के लिए स्थानिक ध्यान (spatial attention) को सेलियंसी प्रायर के साथ जोड़ा जा सकता है।

💡मुख्य बातें

├─सेलियंसी-गाइडेड पैच चयन
├─फाइन-ग्रेन्ड कार्यों के लिए अनुकूलित
└─VISIGRAPP '23 आर्किटेक्चर

🎯के लिए

├─कंप्यूटर विजन शोधकर्ता
└─मशीन लर्निंग इंजीनियर

🔗लिंक

└─GitHub रिपॉजिटरी