deepseek-ai/DeepSeek-R1

🧠 एआई मॉडलdeepseek-ai

सुदृढ़ीकरण सीखने के माध्यम से प्रशिक्षित ओपन-सोर्स तर्क मॉडल, OpenAI के o1 को टक्कर देता है

DeepSeek-R1, DeepSeek-V3 आर्किटेक्चर पर आधारित है जिसमें 671B कुल पैरामीटर के साथ Mixture-of-Experts (MoE) कॉन्फ़िगरेशन है, जिसमें से प्रति टोकन केवल 37B सक्रिय होते हैं। मॉडल को चरण-दर-चरण तर्क, विचार-विमर्श और आत्म-सुधार में सुधार के लिए सुदृढ़ीकरण सीखने का उपयोग करके फ़ाइन-ट्यून किया गया था। इसे विभिन्न गणित (जैसे AIME, MATH-500), कोडिंग (जैसे Codeforces, LiveCodeBench), और सामान्य ज्ञान कार्यों पर बेंचमार्क किया गया है, लगातार GPT-4o के प्रदर्शन से मेल खाता है या उससे आगे है। मॉडल MIT लाइसेंस के तहत जारी किया गया है और हगिंग फेस पर ट्रांसफॉर्मर्स और कस्टम कोड के समर्थन के साथ उपलब्ध है।

💡मुख्य बातें

├─671B MoE, प्रति टोकन केवल 37B सक्रिय
├─चेन-ऑफ-थॉट के लिए सुदृढ़ीकरण सीखना
└─गणित और कोडिंग में GPT-4o के बराबर

🎯के लिए

├─AI शोधकर्ता
├─मशीन लर्निंग इंजीनियर
└─NLP विशेषज्ञ

🔗लिंक

└─हगिंग फेस मॉडल पेज