VikParuchuri/textbook_quality

📦 ओपन सोर्स प्रोजेक्टVikParuchuri

LLM प्रीट्रेनिंग को बेहतर बनाने के लिए उच्च-गुणवत्ता वाले, टेक्स्टबुक-शैली के सिंथेटिक डेटा उत्पन्न करने का एक फ्रेमवर्क।

textbook_quality रिपॉजिटरी लार्ज लैंग्वेज मॉडल (LLM) प्रीट्रेनिंग के लिए शैक्षिक-ग्रेड डेटा को संश्लेषित करने के लिए एक विशेष पाइपलाइन प्रदान करती है। जैसे-जैसे AI समुदाय मात्रा से गुणवत्ता की ओर ध्यान केंद्रित कर रहा है, यह टूल स्वच्छ, संरचित और सूचनात्मक डेटासेट की महत्वपूर्ण आवश्यकता को पूरा करता है। यह फ्रेमवर्क ऐसी सामग्री को फिर से लिखने या उत्पन्न करने के लिए LLMs का लाभ उठाता है जो शैक्षणिक मानकों का पालन करती है, यह सुनिश्चित करते हुए कि परिणामी डेटा जानकारी से भरपूर हो और सामान्य वेब क्रॉल के शोर से मुक्त हो। मुख्य विशेषताओं में स्वचालित सामग्री निर्माण वर्कफ़्लो, गुणवत्ता फ़िल्टरिंग तंत्र और मॉड्यूलर पायथन स्क्रिप्ट शामिल हैं जो शोधकर्ताओं को अपने सिंथेटिक डेटा उत्पादन को स्केल करने की अनुमति देते हैं। 'टेक्स्टबुक क्वालिटी' को प्राथमिकता देकर, यह प्रोजेक्ट मतिभ्रम (hallucinations) को कम करने और डाउनस्ट्रीम मॉडल में तर्क क्षमताओं को बेहतर बनाने का लक्ष्य रखता है।

💡मुख्य बातें

├─सिंथेटिक टेक्स्टबुक-ग्रेड जनरेशन
├─LLM प्रीट्रेनिंग के लिए अनुकूलित
└─स्वचालित डेटा गुणवत्ता पाइपलाइन

🎯के लिए

├─AI शोधकर्ता
├─डेटा वैज्ञानिक
└─LLM इंजीनियर

🔗लिंक

└─GitHub रिपॉजिटरी