distil-whisper/distil-large-v3

🧠 AI मॉडलdistil-whisper

OpenAI के Whisper large-v3 का एक तेज़, हल्का और अत्यधिक सटीक डिस्टिल्ड स्पीच रिकग्निशन मॉडल।

Distil-Whisper/distil-large-v3 अत्याधुनिक Whisper large-v3 आर्किटेक्चर पर नॉलेज डिस्टिलेशन लागू करके स्पीच-टू-टेक्स्ट तकनीक में एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है। इस मॉडल को कम डिकोडर लेयर्स का उपयोग करते हुए टीचर मॉडल के आउटपुट की नकल करने के लिए प्रशिक्षित किया गया है, जिसके परिणामस्वरूप यह मूल large-v3 की तुलना में लगभग 50% तेज़ और 30% छोटा है। यह मूल मॉडल की मजबूत बहुभाषी क्षमताओं और उच्च गुणवत्ता वाले ट्रांसक्रिप्शन प्रदर्शन को बरकरार रखता है। यह मॉडल ONNX, JAX और Safetensors जैसे कई प्रारूपों का समर्थन करता है, जो विभिन्न प्रोडक्शन पाइपलाइनों में सहज एकीकरण सुनिश्चित करता है। कंप्यूटेशनल ओवरहेड को काफी कम करके, यह डेवलपर्स को लाइव कैप्शनिंग और वॉयस-कंट्रोल्ड इंटरफेस जैसे विलंब-संवेदनशील अनुप्रयोगों में सटीकता से समझौता किए बिना उच्च-गुणवत्ता वाली स्पीच रिकग्निशन तैनात करने में सक्षम बनाता है।

💡मुख्य बातें

├─Whisper large-v3 से 50% तेज़
├─30% कम मेमोरी की खपत
└─Whisper का सीधा विकल्प

🎯के लिए

├─AI इंजीनियर
├─सॉफ्टवेयर डेवलपर्स
└─ऑडियो प्रोसेसिंग शोधकर्ता

🔗लिंक

└─Hugging Face रिपॉजिटरी