DeepSeek V3.1
🧠 AI मॉडलdeepseek
671B पैरामीटर का हाइब्रिड रीज़निंग मॉडल, 37B सक्रिय, सोच और गैर-सोच मोड का समर्थन करता है।
DeepSeek-V3.1 एक अत्याधुनिक हाइब्रिड रीज़निंग मॉडल है जो स्केल और दक्षता को जोड़ता है। कुल 671 बिलियन पैरामीटर और प्रति टोकन केवल 37 बिलियन सक्रिय होने के साथ, यह व्यावहारिक अनुमान लागत बनाए रखते हुए मजबूत प्रदर्शन प्राप्त करता है। मॉडल दो मोड का समर्थन करता है: एक 'सोच' मोड जो चरण-दर-चरण तर्क उत्पन्न करता है और एक 'गैर-सोच' मोड सीधे प्रतिक्रिया के लिए। यह विशिष्ट प्रॉम्प्ट टेम्पलेट्स के माध्यम से सक्षम है। यह 163,840 टोकन तक संभालने के लिए दो-चरण लंबे संदर्भ प्रशिक्षण प्रक्रिया से गुजरता है। सुविधाओं में frequency_penalty, include_reasoning, logit_bias, max_tokens, min_p, presence_penalty, reasoning, और repetition_penalty शामिल हैं। OpenRouter पर बेंचमार्क 1158 (3d), 1164 (codecategories), और 1143 (dataviz) के ELO रेटिंग दिखाते हैं।
💡मुख्य बातें
- ├─671B पैरामीटर, प्रति टोकन 37B सक्रिय
- ├─163k संदर्भ लंबाई
- └─सोच और गैर-सोच मोड का समर्थन
🎯के लिए
- ├─AI शोधकर्ता
- ├─तर्क अनुप्रयोग बनाने वाले डेवलपर्स
- └─उद्यम उपयोगकर्ता