nktoan/h-edit

📄 पेपरnktoan

CVPR 2025 का डिफ्यूजन-आधारित इमेज एडिटिंग फ्रेमवर्क, जो सटीक और लचीले नियंत्रण के लिए Doob’s h-transform का उपयोग करता है।

h-Edit जनरेटिव इमेज मैनिपुलेशन में एक महत्वपूर्ण प्रगति है। इसके मूल में, यह फ्रेमवर्क Doob’s h-transform का उपयोग करता है—जो प्रायिकता सिद्धांत (probability theory) की एक तकनीक है—ताकि डिफ्यूजन प्रक्रिया को वांछित संपादन परिणामों की ओर निर्देशित किया जा सके। पारंपरिक तरीकों के विपरीत, जो अक्सर जटिल प्रॉम्प्ट इंजीनियरिंग या संसाधन-गहन मॉडल प्रशिक्षण पर निर्भर करते हैं, h-Edit डिफ्यूजन मॉडल के जनरेटिव प्रक्षेपवक्र को प्रभावित करने का अधिक सीधा और प्रभावी तरीका प्रदान करता है। इसका कार्यान्वयन पायथन में किया गया है, जो इसे डीप लर्निंग और कंप्यूटर विजन पर काम करने वाले शोधकर्ताओं के लिए सुलभ बनाता है। प्रमुख तकनीकी विशेषताओं में संपादन के दौरान बेहतर संरचनात्मक संरक्षण, विभिन्न संपादन कार्यों को संभालने में उच्च लचीलापन, और एक मजबूत आर्किटेक्चर शामिल है जो मौजूदा डिफ्यूजन पाइपलाइनों के साथ सहजता से एकीकृत होता है। स्कोर फ़ंक्शन को गणितीय रूप से बदलकर, h-Edit इमेज फीचर्स पर सटीक नियंत्रण प्राप्त करता है।

💡मुख्य बातें

├─CVPR 2025 स्वीकृत शोध
├─Doob’s h-transform का उपयोग
└─लचीला डिफ्यूजन-आधारित संपादन

🎯के लिए

├─कंप्यूटर विजन शोधकर्ता
└─जनरेटिव AI डेवलपर्स

🔗लिंक

└─GitHub रिपॉजिटरी