pyannote/wespeaker-voxceleb-resnet34-LM

🧠 KI-Modellpyannote

Modernstes Sprecherverifikationsmodell, trainiert auf VoxCeleb mit ResNet34-Grundgerüst.

Das pyannote/wespeaker-voxceleb-resnet34-LM-Modell ist ein Open-Source-Sprecherverifikationsmodell, das aus dem WeSpeaker-Projekt verfeinert wurde. Es verwendet ein ResNet34-Grundgerüst mit 34 Faltungsschichten und einem Large-Margin-Trainingsziel, um die Sprecherdiskriminierung zu verbessern. Das Modell wurde auf den Datensätzen VoxCeleb1 und VoxCeleb2 trainiert, die Tausende von Sprachsegmenten von Prominenten enthalten. Zu den wichtigsten Merkmalen gehören robuste Leistung bei verrauschten Bedingungen, Extraktion von Sprecherembeddings und Integration in die pyannote-audio-Pipeline für Diarisierungs- und Erkennungsaufgaben. Das Modell gibt pro Äußerung einen 512-dimensionalen Embedding-Vektor aus, der für Kosinus-Ähnlichkeit oder PLDA-Bewertung geeignet ist. Mit über 5,2 Millionen Downloads wird es in der Forschung und Industrie für Sprecheridentifizierung, Authentifizierung und Sprachbiometrie weit verbreitet eingesetzt.

💡Highlights

├─5M+ Downloads
├─ResNet34 Grundgerüst
└─Auf VoxCeleb trainiert

🎯Für

├─Sprachforscher
├─Biometrie-Ingenieure
└─Entwickler von Sprachapplikationen

🔗Links

└─HuggingFace