openvla/openvla-7b

🤖 एआई मॉडलopenvla

OpenVLA-7B: सामान्य रोबोट हेरफेर के लिए ओपन-सोर्स विज़न-भाषा-क्रिया मॉडल।

OpenVLA-7B एक बहु-विधा मॉडल है जो SigLIP विज़न एन्कोडर और Llama 2 भाषा मॉडल बैकबोन को जोड़ता है, जिसे 1 मिलियन से अधिक वास्तविक रोबोट एपिसोड वाले Open X-Embodiment डेटासेट पर फ़ाइन-ट्यून किया गया है। यह निरंतर रोबोट कमांड आउटपुट करने के लिए एक सरल क्रिया असततीकरण योजना का उपयोग करता है। मॉडल एकल GPU पर चलने के लिए कुशल है, और फ़ाइन-ट्यूनिंग के माध्यम से कुछ-शॉट अनुकूलन का समर्थन करता है। नवाचारों में क्रिया स्थान का एक कॉम्पैक्ट टोकनकरण और एक प्रशिक्षण विधि शामिल है जो पैमाने और डेटा विविधता को संतुलित करती है, जिससे अदृश्य वस्तुओं, दृश्यों और रोबोट रूपों में मजबूत सामान्यीकरण सक्षम होता है।

💡मुख्य बातें

├─7B पैरामीटर, ओपन-सोर्स
├─विविध रोबोट डेटा पर प्रशिक्षित
└─एकाधिक रोबोट प्लेटफ़ॉर्म को नियंत्रित करता है

🎯के लिए

├─रोबोटिक्स शोधकर्ता
├─AI डेवलपर्स
└─रोबोट उत्साही

🔗लिंक

└─HuggingFace मॉडल कार्ड