google/electra-small-discriminator

🧠 AI मॉडलgoogle

गूगल का 14M पैरामीटर वाला कुशल डिस्क्रिमिनेटर, जो प्रतिस्थापित टोकन पहचान का उपयोग करता है।

ELECTRA (Efficiently Learning an Encoder that Classifies Token Replacements Accurately) एक प्रीट्रेनिंग कार्य प्रस्तुत करता है जिसे प्रतिस्थापित टोकन पहचान कहा जाता है। BERT की तरह इनपुट टोकन को मास्क करने के बजाय, ELECTRA एक डिस्क्रिमिनेटर को प्रशिक्षित करता है जो वास्तविक टोकन और एक छोटे जनरेटर नेटवर्क द्वारा उत्पन्न संभावित नकली टोकन के बीच अंतर करता है। यह अधिक कुशल प्रशिक्षण को सक्षम बनाता है क्योंकि मॉडल सभी टोकन से सीखता है। छोटे डिस्क्रिमिनेटर वेरिएंट में केवल 14M पैरामीटर हैं, जो लगभग BERT-Small के आकार के बराबर है लेकिन कई डाउनस्ट्रीम कार्यों पर इसे बेहतर प्रदर्शन करता है। यह एक बड़े अंग्रेजी कॉर्पस पर प्रीट्रेन किया गया है और वर्गीकरण, टैगिंग, QA, और अधिक के लिए फाइन-ट्यून किया जा सकता है। वास्तुकला में 12 ट्रांसफॉर्मर परतें हैं जिनमें हिडन साइज 256 और 4 अटेंशन हेड हैं। यह मॉडल केवल डिस्क्रिमिनेटर है; जनरेटर शामिल नहीं है। यह Apache 2.0 के तहत लाइसेंस प्राप्त है और आसान तैनाती के लिए Hugging Face endpoints के साथ संगत है।

💡मुख्य बातें

├─14M पैरामीटर, कुशल प्रीट्रेनिंग
├─प्रतिस्थापित टोकन पहचान कार्य
└─GLUE पर BERT-Small से बेहतर

🎯के लिए

├─NLP शोधकर्ता
├─ML इंजीनियर
└─AI डेवलपर

🔗लिंक

└─Hugging Face मॉडल कार्ड