hustvl/vitmatte-small-composition-1k

🧠 AI मॉडलhustvl

Adobe Composition-1k पर प्रशिक्षित ViT-आधारित इमेज मैटिंग मॉडल, सटीक फोरग्राउंड निष्कर्षण के लिए।

ViTMatte-Small एक हल्का इमेज मैटिंग मॉडल है जो प्राकृतिक छवियों के लिए उच्च-गुणवत्ता वाले अल्फा मैट्स की भविष्यवाणी करने हेतु Vision Transformer (ViT) आर्किटेक्चर का लाभ उठाता है। इमेज मैटिंग फोरग्राउंड ऑब्जेक्ट्स की अपारदर्शिता (अल्फा चैनल) का सटीक अनुमान लगाने का कार्य है, जो फोटो एडिटिंग, फिल्म प्रोडक्शन और ऑगमेंटेड रियलिटी जैसे अनुप्रयोगों के लिए महत्वपूर्ण है। Adobe Composition-1k बेंचमार्क पर प्रशिक्षित, यह मॉडल 'ViTMatte: Boosting Image Matting with Pre-trained Plain Vision Transformers' पेपर में प्रस्तुत ViTMatte फ्रेमवर्क का अनुसरण करता है। आर्किटेक्चर आमतौर पर ट्राईमैप-आधारित या ट्राईमैप-मुक्त फोरग्राउंड भविष्यवाणियों को परिष्कृत करने के लिए एक ViT बैकबोन को हल्के मैटिंग-विशिष्ट डिकोडर मॉड्यूल के साथ जोड़ता है। 'small' वेरिएंट कम्प्यूटेशनल दक्षता और मैटिंग गुणवत्ता के बीच अनुकूल संतुलन प्रदान करता है, जो सीमित संसाधनों वाले प्रोडक्शन वातावरण के लिए उपयुक्त है। यह PyTorch में Hugging Face Transformers लाइब्रेरी का उपयोग करके कार्यान्वित किया गया है, safetensors प्रारूप का समर्थन करता है, और Apache 2.0 लाइसेंस के तहत जारी किया गया है। मॉडल आसान डिप्लॉयमेंट के लिए Inference Endpoints के साथ भी संगत है।

💡मुख्य बातें

├─इमेज मैटिंग के लिए ViT-आधारित आर्किटेक्चर
├─Adobe Composition-1k बेंचमार्क पर प्रशिक्षित
├─गति और गुणवत्ता का संतुलन रखने वाला छोटा वेरिएंट
├─Hugging Face पर 10 लाख+ डाउनलोड
└─Apache 2.0 ओपन-सोर्स लाइसेंस

🎯के लिए

├─कंप्यूटर विज़न शोधकर्ता
├─इमेज एडिटिंग ऐप डेवलपर्स
└─ML इंजीनियर

🔗लिंक

├─Hugging Face मॉडल पेज
└─ViTMatte पेपर (arXiv)