guyyariv/LaMI

📦 ओपन सोर्स प्रोजेक्टguyyariv

LaMI, लेट मल्टी-इमेज फ्यूजन के माध्यम से लार्ज लैंग्वेज मॉडल्स की विजुअल रीजनिंग क्षमता को बढ़ाता है।

LaMI उन मानक विजन-लैंग्वेज मॉडल्स की सीमाओं को संबोधित करता है जो जटिल, मल्टी-इमेज रीजनिंग कार्यों के साथ संघर्ष करते हैं। पारंपरिक अर्ली-फ्यूजन विधियों के विपरीत, जो इनपुट लेयर पर इमेज टोकन को जोड़ती हैं, LaMI एक 'लेट फ्यूजन' रणनीति का उपयोग करता है। यह आर्किटेक्चरल नवाचार मॉडल को उच्च-रिज़ॉल्यूशन विजुअल फीचर्स बनाए रखने की अनुमति देता है, जबकि अंतर्निहित LLM की तर्क शक्ति का लाभ उठाता है। छवियों को मर्ज करने से पहले स्वतंत्र रूप से प्रोसेस करके, मॉडल विजुअल कॉमनसेंस रीजनिंग बेंचमार्क में बेहतर प्रदर्शन प्राप्त करता है। यह फ्रेमवर्क मॉड्यूलर है, जो विभिन्न LLM बैकबोन का समर्थन करता है और इस पर शोध को सुविधाजनक बनाता है कि कैसे विजुअल जानकारी को भाषा मॉडल्स में अधिक प्रभावी ढंग से शामिल किया जा सकता है। यह उन कार्यों के लिए विशेष रूप से प्रभावी है जिनमें कई विजुअल इनपुट की तुलना, संश्लेषण या अनुक्रमिक विश्लेषण की आवश्यकता होती है, जो इसे मल्टीमॉडल डीप लर्निंग के लिए एक महत्वपूर्ण कदम बनाता है।

💡मुख्य बातें

├─ACL 2026 ओरल प्रेजेंटेशन
├─लेट मल्टी-इमेज फ्यूजन आर्किटेक्चर
└─उन्नत विजुअल कॉमनसेंस रीजनिंग

🎯के लिए

├─AI शोधकर्ता
└─मल्टीमॉडल डीप लर्निंग इंजीनियर

🔗लिंक

└─GitHub रिपॉजिटरी