deepseek-ai/DeepSeek-R1
🧠 एआई मॉडलdeepseek-ai
सुदृढ़ीकरण सीखने के माध्यम से प्रशिक्षित ओपन-सोर्स तर्क मॉडल, OpenAI के o1 को टक्कर देता है
DeepSeek-R1, DeepSeek-V3 आर्किटेक्चर पर आधारित है जिसमें 671B कुल पैरामीटर के साथ Mixture-of-Experts (MoE) कॉन्फ़िगरेशन है, जिसमें से प्रति टोकन केवल 37B सक्रिय होते हैं। मॉडल को चरण-दर-चरण तर्क, विचार-विमर्श और आत्म-सुधार में सुधार के लिए सुदृढ़ीकरण सीखने का उपयोग करके फ़ाइन-ट्यून किया गया था। इसे विभिन्न गणित (जैसे AIME, MATH-500), कोडिंग (जैसे Codeforces, LiveCodeBench), और सामान्य ज्ञान कार्यों पर बेंचमार्क किया गया है, लगातार GPT-4o के प्रदर्शन से मेल खाता है या उससे आगे है। मॉडल MIT लाइसेंस के तहत जारी किया गया है और हगिंग फेस पर ट्रांसफॉर्मर्स और कस्टम कोड के समर्थन के साथ उपलब्ध है।
💡मुख्य बातें
- ├─671B MoE, प्रति टोकन केवल 37B सक्रिय
- ├─चेन-ऑफ-थॉट के लिए सुदृढ़ीकरण सीखना
- └─गणित और कोडिंग में GPT-4o के बराबर
🎯के लिए
- ├─AI शोधकर्ता
- ├─मशीन लर्निंग इंजीनियर
- └─NLP विशेषज्ञ