pyannote/wespeaker-voxceleb-resnet34-LM

🧠 AI मॉडलpyannote

VoxCeleb पर प्रशिक्षित ResNet34 बैकबोन वाला अत्याधुनिक वक्ता सत्यापन मॉडल।

pyannote/wespeaker-voxceleb-resnet34-LM मॉडल एक ओपन-सोर्स वक्ता सत्यापन मॉडल है जो WeSpeaker प्रोजेक्ट से फाइन-ट्यून किया गया है। यह 34 कन्वोल्यूशनल परतों वाले ResNet34 बैकबोन और वक्ता भेदभाव को बढ़ाने के लिए लार्ज मार्जिन (LM) प्रशिक्षण उद्देश्य का उपयोग करता है। मॉडल को VoxCeleb1 और VoxCeleb2 डेटासेट पर प्रशिक्षित किया गया है, जिसमें हजारों सेलिब्रिटीज के भाषण खंड शामिल हैं। प्रमुख विशेषताओं में शोर वाली स्थितियों में मजबूत प्रदर्शन, वक्ता एम्बेडिंग निष्कर्षण, और डायराइजेशन और पहचान कार्यों के लिए pyannote-audio पाइपलाइन के साथ एकीकरण शामिल है। मॉडल प्रति उच्चारण 512-आयामी एम्बेडिंग वेक्टर आउटपुट करता है, जो कोसाइन समानता या PLDA स्कोरिंग के लिए उपयुक्त है। 52 लाख से अधिक डाउनलोड के साथ, यह अनुसंधान और उद्योग में वक्ता पहचान, प्रमाणीकरण और वॉयस बायोमेट्रिक्स के लिए व्यापक रूप से उपयोग किया जाता है।

💡मुख्य बातें

├─50 लाख+ डाउनलोड
├─ResNet34 बैकबोन
└─VoxCeleb पर प्रशिक्षित

🎯के लिए

├─भाषण शोधकर्ता
├─बायोमेट्रिक इंजीनियर
└─वॉयस एप्लिकेशन डेवलपर्स

🔗लिंक

└─HuggingFace