Systran/faster-whisper-large-v3

🧠 AI मॉडलSystran

OpenAI के Whisper large-v3 का एक उच्च-प्रदर्शन वाला, अनुकूलित संस्करण, जो बिजली की गति से स्पीच-टू-टेक्स्ट ट्रांसक्रिप्शन प्रदान करता है।

Systran/faster-whisper-large-v3 अत्याधुनिक स्पीच रिकग्निशन की तैनाती दक्षता में एक बड़ी छलांग का प्रतिनिधित्व करता है। ट्रांसफॉर्मर मॉडल के लिए एक उच्च-प्रदर्शन इन्फरेंस इंजन, CTranslate2 का लाभ उठाकर, यह कार्यान्वयन उत्पादन वातावरण के लिए Whisper large-v3 आर्किटेक्चर को अनुकूलित करता है। प्रमुख तकनीकी नवाचारों में वेट क्वांटाइजेशन शामिल है, जो ट्रांसक्रिप्शन गुणवत्ता से समझौता किए बिना मॉडल के मेमोरी फुटप्रिंट को कम करता है, साथ ही कुशल बीम सर्च डिकोडिंग भी शामिल है। यह मॉडल अंग्रेजी, चीनी, जर्मन, स्पेनिश, रूसी, कोरियाई और फ्रेंच सहित बहु-भाषी ट्रांसक्रिप्शन का समर्थन करता है। इसे विशेष रूप से CPU और GPU दोनों पर चलने के लिए डिज़ाइन किया गया है, जो डेवलपर्स को उपभोक्ता-ग्रेड हार्डवेयर या स्केलेबल क्लाउड इंफ्रास्ट्रक्चर पर उच्च-सटीक ASR सिस्टम तैनात करने की सुविधा देता है। CTranslate2 का एकीकरण तेज टोकन जनरेशन और कम विलंबता (latency) की अनुमति देता है, जिससे यह वॉयस-सक्षम एप्लिकेशन, मीटिंग ट्रांसक्रिप्शन सेवाओं और स्वचालित सबटाइटल जनरेशन पाइपलाइनों के निर्माण के लिए एक पसंदीदा विकल्प बन जाता है।

💡मुख्य बातें

├─मूल Whisper से 4 गुना तक तेज
├─CTranslate2 द्वारा कम मेमोरी खपत
└─बहु-भाषी ट्रांसक्रिप्शन का समर्थन

🎯के लिए

├─सॉफ्टवेयर डेवलपर्स
└─AI इंजीनियर्स

🔗लिंक

└─HuggingFace रिपॉजिटरी