lxe/llavavision

📦 ओपन सोर्स प्रोजेक्टlxe

LLaVA और llama.cpp द्वारा संचालित एक निजी और स्थानीय 'Be My Eyes' वेब एप्लिकेशन।

Llavavision एक सुव्यवस्थित वेब-आधारित इंटरफ़ेस है जिसे स्थानीय कंप्यूटर विज़न मॉडल और अंतिम-उपयोगकर्ता की सुलभता के बीच की दूरी को कम करने के लिए डिज़ाइन किया गया है। llama.cpp के साथ एकीकरण के माध्यम से, यह LLaVA (लार्ज लैंग्वेज-एंड-विज़न असिस्टेंट) मॉडल को स्थानीय रूप से चलाने में सक्षम बनाता है, जिससे यह सुनिश्चित होता है कि संवेदनशील दृश्य डेटा उपयोगकर्ता के सिस्टम पर ही सुरक्षित रहे। यह प्रोजेक्ट जावास्क्रिप्ट का उपयोग करके बनाया गया है और एक स्वच्छ, रिस्पॉन्सिव वेब इंटरफ़ेस प्रदान करता है जो कैमरा इनपुट को कैप्चर करता है और मल्टीमॉडल इन्फरेंस के लिए बैकएंड पर भेजता है। इसकी मुख्य तकनीकी विशेषताओं में स्थानीय मॉडल निष्पादन का समर्थन शामिल है, जो बाहरी API कॉल से जुड़ी देरी को समाप्त करता है और पूर्ण डेटा संप्रभुता सुनिश्चित करता है। यह उन डेवलपर्स के लिए विशेष रूप से उपयोगी है जो गोपनीयता-प्रथम सहायक तकनीक बनाना चाहते हैं या स्थानीय मल्टीमॉडल LLM पर प्रयोग कर रहे हैं। इसका आर्किटेक्चर मॉड्यूलर है, जो उपयोगकर्ताओं को अपने हार्डवेयर के अनुसार मॉडल बदलने या पैरामीटर समायोजित करने की अनुमति देता है।

💡मुख्य बातें

├─llama.cpp के माध्यम से स्थानीय LLaVA इन्फरेंस
├─गोपनीयता-प्रथम दृश्य सहायता
└─स्थानीय मॉडल के लिए वेब-आधारित इंटरफ़ेस

🎯के लिए

├─सुलभता डेवलपर्स
└─गोपनीयता-केंद्रित AI उत्साही

🔗लिंक

└─GitHub रिपॉजिटरी