jonatasgrosman/wav2vec2-large-xlsr-53-greek

🧠 एआई मॉडलjonatasgrosman

ग्रीक स्वचालित भाषण पहचान के लिए wav2vec2 मॉडल का फाइन-ट्यून किया गया संस्करण।

यह मॉडल Facebook के wav2vec2-large-xlsr-53 का फाइन-ट्यून किया गया संस्करण है, जो विशेष रूप से ग्रीक भाषण पहचान के लिए अनुकूलित है। इसे XLSR फाइन-ट्यूनिंग सप्ताह के भाग के रूप में बनाया गया था, जो बहुभाषी पूर्व-प्रशिक्षित मॉडल से ट्रांसफर लर्निंग का लाभ उठाता है। यह मॉडल wav2vec2 आर्किटेक्चर का उपयोग करता है जिसमें ट्रांसफॉर्मर-आधारित एनकोडर रॉ ऑडियो तरंगों को संसाधित करता है। यह बिना किसी भाषा मॉडल या शब्दकोश की आवश्यकता के ग्रीक में प्रतिलेखन आउटपुट करता है। प्रशिक्षण डेटा क्राउड-सोर्स किए गए कॉमन वॉइस डेटासेट से आता है। प्रमुख तकनीकी विवरण: इसमें 24-लेयर ट्रांसफॉर्मर, 16 अटेंशन हेड्स और 1024 की हिडन साइज है। मॉडल PyTorch और JAX में लागू किया गया है, जो प्रशिक्षण और अनुमान दोनों का समर्थन करता है।

💡मुख्य बातें

├─ग्रीक के लिए फाइन-ट्यून wav2vec2
├─XLSR फाइन-ट्यूनिंग सप्ताह का हिस्सा
└─हगिंग फेस पर 2.3M डाउनलोड

🎯के लिए

├─ग्रीक एएसआर डेवलपर्स
├─भाषण पहचान शोधकर्ता
└─ओपन सोर्स एमएल समुदाय

🔗लिंक

└─हगिंग फेस मॉडल पेज