Harveenchadha/vakyansh-wav2vec2-tamil-tam-250

🧠 AI मॉडलHarveenchadha

तमिल भाषण पहचान के लिए फाइन-ट्यून किया गया Wav2Vec2 मॉडल, 250M पैरामीटर।

यह मॉडल विशेष रूप से तमिल भाषा भाषण पहचान के लिए Wav2Vec2 आर्किटेक्चर का एक फाइन-ट्यून संस्करण है। यह एक पूर्व-प्रशिक्षित wav2vec2 चेकपॉइंट के साथ Wav2Vec2ForCTC मॉडल का उपयोग करता है, फिर Vakyansh प्रोजेक्ट के 250 घंटे के तमिल भाषण डेटा पर फाइन-ट्यून किया जाता है। मॉडल लगभग 250 मिलियन पैरामीटर के साथ 12-लेयर ट्रांसफॉर्मर एनकोडर का उपयोग करता है। यह 16kHz ऑडियो संसाधित करता है और कनेक्शनिस्ट टेम्पोरल क्लासिफिकेशन (CTC) के माध्यम से टेक्स्ट आउटपुट करता है। मुख्य नवाचारों में लर्निंग रेट शेड्यूल, ग्रेडिएंट चेकपॉइंटिंग और मिश्रित परिशुद्धता प्रशिक्षण शामिल हैं। मॉडल मानक तमिल बेंचमार्क पर लगभग 10-15% की शब्द त्रुटि दर (WER) प्राप्त करता है। यह HuggingFace Transformers लाइब्रेरी के साथ संगत है और अनुमान या आगे फाइन-ट्यूनिंग के लिए उपयोग किया जा सकता है।

💡मुख्य बातें

├─250M पैरामीटर, 12 ट्रांसफॉर्मर लेयर
├─250 घंटे तमिल भाषण पर फाइन-ट्यून
└─HuggingFace पर 1.3M+ डाउनलोड

🎯के लिए

├─एनएलपी शोधकर्ता
├─ASR डेवलपर्स
└─तमिल भाषा प्रौद्योगिकी उत्साही

🔗लिंक

└─HuggingFace मॉडल पेज