anton-l/wav2vec2-large-xlsr-53-estonian

🧠 AI मॉडलanton-l

एस्तोनियाई भाषा के लिए सटीक स्वचालित वाक् पहचान (ASR) हेतु फाइन-ट्यून किया गया Wav2Vec2 मॉडल।

anton-l/wav2vec2-large-xlsr-53-estonian मॉडल शक्तिशाली XLSR-53 (क्रॉस-लिंगुअल स्पीच रिप्रेजेंटेशन) फ्रेमवर्क पर आधारित है, जिसे 53 भाषाओं पर प्री-ट्रेन किया गया था। Common Voice डेटासेट से एस्तोनियाई ऑडियो डेटा पर इस बड़े पैमाने के आर्किटेक्चर को फाइन-ट्यून करके, यह मॉडल बोले गए एस्तोनियाई को टेक्स्ट में बदलने में उच्च प्रदर्शन प्राप्त करता है। यह PyTorch और JAX के साथ सहज एकीकरण का समर्थन करता है, जिससे डेवलपर्स इसे मौजूदा NLP पाइपलाइनों में तैनात कर सकते हैं। यह मॉडल कनेक्शनिस्ट टेम्पोरल क्लासिफिकेशन (CTC) लॉस फंक्शन का उपयोग करता है, जो स्पीच रिकग्निशन जैसे सीक्वेंस-टू-सीक्वेंस कार्यों के लिए आदर्श है। यह मॉडल कम-संसाधन वाली भाषाओं के स्पीच प्रोसेसिंग में अंतर को पाटने के लिए शोधकर्ताओं और डेवलपर्स के लिए एक आधारभूत उपकरण के रूप में कार्य करता है।

💡मुख्य बातें

├─Common Voice पर फाइन-ट्यून किया गया
├─XLSR-53 आधारित आर्किटेक्चर
└─PyTorch और JAX का समर्थन

🎯के लिए

├─स्पीच शोधकर्ता
└─NLP डेवलपर्स

🔗लिंक

└─Hugging Face मॉडल पेज