lhotse-speech/lhotse

🔧 टूलlhotse-speech

बहु-मोडल डेटा हैंडलिंग के लिए टूलकिट, विशेष रूप से भाषण/ऑडियो ML पाइपलाइनों के लिए।

Lhotse ML प्रोजेक्ट्स में बहु-मोडल डेटा प्रबंधन के लिए एक व्यापक सूट प्रदान करता है। प्रमुख विशेषताएं: मेनिफेस्ट-आधारित डेटासेट प्रतिनिधित्व, कई बैकएंड (soundfile, torchaudio, आदि) के साथ लचीला ऑडियो/वीडियो लोडिंग, ऑन-द-फ्लाई फीचर एक्सट्रैक्शन (Fbank, MFCC, spectrogram), डेटा ऑगमेंटेशन (स्पीड पर्टर्बेशन, नॉइज़, रिवरबरेशन), डायनामिक मिक्सिंग (कट मिक्सिंग), और बड़े कॉर्पोरा के लिए स्ट्रीमिंग सपोर्ट। यह PyTorch DataLoader और Kaldi रेसिपीज़ के साथ सहजता से एकीकृत होता है, स्केलेबल ट्रेनिंग पाइपलाइनों को सक्षम बनाता है। मूल रूप से भाषण पहचान के लिए विकसित, यह मनमानी बहु-मोडल अनुक्रमों का समर्थन करता है और उत्पादन प्रणालियों में उपयोग किया जाता है।

💡मुख्य बातें

├─1.1k+ स्टार्स, 277 फोर्क्स
├─Python, PyTorch, Kaldi एकीकरण
└─कुशल बहु-मोडल डेटा पाइपलाइन

🎯के लिए

├─भाषण शोधकर्ता
├─ML इंजीनियर
└─डेटा वैज्ञानिक

🔗लिंक

└─GitHub रिपॉजिटरी