
GramosoftAI/GcrawlAI
📦 ओपन सोर्स प्रोजेक्टGramosoftAI
किसी भी वेबसाइट को साफ, LLM-तैयार मार्कडाउन डेटा में बदलने वाला एक ओपन-सोर्स, वितरित वेब क्रॉलर।
GcrawlAI एक मजबूत, पायथन-आधारित डेटा निष्कर्षण पाइपलाइन है जिसे कच्चे वेब कंटेंट और AI मॉडल के बीच की खाई को पाटने के लिए बनाया गया है। यह ब्राउज़र ऑटोमेशन के लिए Playwright का लाभ उठाता है, जिससे यह डायनामिक और JavaScript-आधारित वेबसाइटों को आसानी से हैंडल कर सकता है। इसका आर्किटेक्चर अत्यधिक स्केलेबल है, जो वितरित कार्य प्रबंधन के लिए Celery और मैसेज ब्रोकिंग के लिए Redis का उपयोग करता है।
इसकी प्रमुख तकनीकी विशेषताओं में IP ब्लॉकिंग के जोखिम को कम करने के लिए 'स्टील्थ मोड' और क्रॉलिंग प्रगति पर लाइव अपडेट प्रदान करने वाला रीयल-टाइम वेबसॉकेट इंटरफ़ेस शामिल है। यह टूल स्वचालित रूप से निकाली गई सामग्री को साफ करके LLM-अनुकूल मार्कडाउन में फॉर्मेट करता है। यह RAG पाइपलाइनों के लिए एक आदर्श घटक है, क्योंकि यह सुनिश्चित करता है कि वेक्टर डेटाबेस में इंजेक्ट किया गया डेटा सुसंगत और पठनीय हो। यह प्रोजेक्ट मॉड्यूलर है, जिससे डेवलपर्स इसे अपने मौजूदा FastAPI या Streamlit वर्कफ़्लो में आसानी से एकीकृत कर सकते हैं।
💡मुख्य बातें
- ├─Celery के साथ वितरित क्रॉलिंग
- ├─बॉट से बचने के लिए स्टील्थ मोड
- └─LLM के लिए साफ मार्कडाउन आउटपुट
🎯के लिए
- ├─AI इंजीनियर्स
- ├─डेटा साइंटिस्ट्स
- └─RAG पाइपलाइन डेवलपर्स