raznem/parsera

📦 ओपन सोर्स प्रोजेक्टraznem

LLMs का उपयोग करके वेब स्क्रैपिंग और संरचित डेटा निष्कर्षण के लिए एक हल्का पायथन लाइब्रेरी।

Parsera पारंपरिक वेब स्क्रैपिंग और आधुनिक AI क्षमताओं के बीच की खाई को पाटती है। मैनुअल CSS सेलेक्टर या XPath एक्सप्रेशन पर निर्भर रहने के बजाय—जो वेबसाइट लेआउट बदलने पर अक्सर काम करना बंद कर देते हैं—Parsera पेज सामग्री की व्याख्या करने और प्राकृतिक भाषा निर्देशों के आधार पर वांछित जानकारी निकालने के लिए LLMs का उपयोग करती है। इसकी मुख्य विशेषताओं में डायनामिक और जावास्क्रिप्ट-आधारित वेबसाइटों को संभालने के लिए Playwright के साथ सहज एकीकरण, और एक सरल API शामिल है जो उपयोगकर्ताओं को डेटा का स्कीमा परिभाषित करने की अनुमति देता है। यह लाइब्रेरी DOM नेविगेशन, HTML सफाई और LLM को संरचित JSON लौटाने के लिए प्रॉम्प्ट देने का कठिन कार्य स्वयं करती है। यह डेटा पाइपलाइनों, बाजार अनुसंधान उपकरणों या स्वचालित निगरानी प्रणालियों के निर्माण के लिए एक आदर्श उपकरण है, जिन्हें UI परिवर्तनों के प्रति उच्च लचीलेपन की आवश्यकता होती है। इसका हल्का आर्किटेक्चर न्यूनतम ओवरहेड सुनिश्चित करता है और विभिन्न LLM बैकएंड के बीच स्विच करने की सुविधा देता है।

💡मुख्य बातें

├─LLM-संचालित डेटा निष्कर्षण
├─Playwright-आधारित ऑटोमेशन
└─UI परिवर्तनों के प्रति लचीला

🎯के लिए

├─डेटा इंजीनियर
└─AI डेवलपर्स

🔗लिंक

└─GitHub रिपॉजिटरी