DeepSeek: DeepSeek V3

🧠 AI मॉडलdeepseek

डीपसीक का नवीनतम MoE मॉडल, बेहतर कोडिंग और निर्देश अनुसरण के लिए 15T टोकन पर प्री-ट्रेंड।

DeepSeek-V3, DeepSeek के बड़े भाषा मॉडलों का नवीनतम संस्करण है, जो अपने पूर्ववर्तियों की ताकत पर बेहतर निर्देश अनुसरण और कोडिंग क्षमताओं के साथ निर्मित है। यह मॉडल Mixture-of-Experts (MoE) आर्किटेक्चर का उपयोग करता है, जो इसे प्रति टोकन केवल पैरामीटर्स का एक उपसमूह सक्रिय करने की अनुमति देता है, जिससे उच्च प्रदर्शन बनाए रखते हुए दक्षता में सुधार होता है। लगभग 15 ट्रिलियन टोकन के विविध कॉर्पस पर प्री-ट्रेंड, DeepSeek-V3 कोडिंग (codecategories पर ELO 1160) और डेटा विज़ुअलाइज़ेशन (ELO 1142) सहित विभिन्न बेंचमार्कों पर मजबूत परिणाम प्रदर्शित करता है। यह 131,072 टोकन की संदर्भ लंबाई का समर्थन करता है, जिससे लंबे दस्तावेज़ प्रसंस्करण संभव होता है। मॉडल OpenRouter के माध्यम से पारदर्शी मूल्य निर्धारण ($0.20/M इनपुट, $0.80/M आउटपुट) के साथ उपलब्ध है और फ़्रीक्वेंसी पेनल्टी, लॉजिट बायस, मैक्स टोकन, min_p, प्रेज़ेंस पेनल्टी, रिपीटिशन पेनल्टी, रिस्पॉन्स फ़ॉर्मेट, और सीड जैसे समायोज्य पैरामीटर प्रदान करता है। DeepSeek-V3 को डेवलपर्स और शोधकर्ताओं के लिए डिज़ाइन किया गया है जो कोड जनरेशन से लेकर जटिल तर्क तक के कार्यों के लिए एक लागत-प्रभावी, उच्च-प्रदर्शन भाषा मॉडल की तलाश में हैं।

💡मुख्य बातें

├─MoE आर्किटेक्चर, 15T टोकन प्री-ट्रेनिंग
├─131K संदर्भ लंबाई, कम लागत API
└─मजबूत कोडिंग बेंचमार्क (ELO 1160)

🎯के लिए

├─AI शोधकर्ता
├─डेवलपर्स
└─कोडिंग उत्साही

🔗लिंक

└─OpenRouter मॉडल पृष्ठ