jonatasgrosman/wav2vec2-large-xlsr-53-japanese

🧠 एआई मॉडलjonatasgrosman

जापानी भाषा के लिए Wav2Vec2-XLSR-53 फ़ाइन-ट्यून, उच्च गुणवत्ता वाला ASR।

यह मॉडल Wav2Vec2-XLSR-53 आर्किटेक्चर पर आधारित है, जो 53 भाषाओं पर पूर्व-प्रशिक्षित एक स्व-पर्यवेक्षित मॉडल है। इसे Common Voice के जापानी उपसमुच्चय पर फ़ाइन-ट्यून किया गया है, जो एक क्राउड-सोर्स्ड पढ़े गए भाषण का डेटासेट है। मॉडल कंट्रास्टिव लर्निंग उद्देश्यों के साथ एक ट्रांसफॉर्मर एन्कोडर का उपयोग करता है। मुख्य विशेषताएं: 12 ट्रांसफॉर्मर ब्लॉक, 1024 हिडन आयाम, और 4096 फीड-फॉरवर्ड आकार। PyTorch और JAX के माध्यम से अनुमान समर्थित है। मॉडल कैरेक्टर-स्तरीय ट्रांसक्रिप्शन आउटपुट करता है। यह साफ भाषण के लिए विशेष रूप से मजबूत है और विविध उच्चारणों पर अच्छा प्रदर्शन करता है। प्रशिक्षण प्रक्रिया ने XLSR फ़ाइन-ट्यूनिंग सप्ताह के संसाधनों का लाभ उठाया, वर्ड एरर रेट (WER) के लिए अनुकूलित। चेकपॉइंट Hugging Face की पाइपलाइन के साथ सीधे उपयोग के लिए उपलब्ध हैं।

💡मुख्य बातें

├─XLSR-53 आधार, जापानी फ़ाइन-ट्यून
├─3.6M डाउनलोड HuggingFace पर
└─ट्रांसफॉर्मर-आधारित उच्च सटीकता ASR

🎯के लिए

├─वाक् पहचान डेवलपर
├─जापानी एनएलपी शोधकर्ता
└─एआई शौकिया

🔗लिंक

└─Hugging Face पर मॉडल कार्ड