pyannote/speaker-diarization-3.1

🧠 KI-Modellpyannote

Modernste Sprecher-Diarisierung, die erkennt, wer wann spricht.

pyannote/speaker-diarization-3.1 ist eine vollständige, anpassbare Pipeline zur Sprecher-Diarisierung, die auf der pyannote-audio-Bibliothek basiert. Sie integriert vier Kernkomponenten: ein Modell zur Sprachaktivitätserkennung (VAD), ein Modell zur Sprecherwechselerkennung (SCD), ein Modell zur Überlappungserkennung (OL) und ein Modul zum Clustering von Sprecher-Embeddings. Die Pipeline verarbeitet Rohaudio und gibt Segmente mit Sprecherlabels aus. Version 3.1 führt eine verbesserte Überlappungserkennung und verbesserte Embedding-Modelle ein, was zu einer besseren Leistung bei anspruchsvollen Szenarien wie überlappender Sprache und kurzen Segmenten führt. Sie erzielt erstklassige Ergebnisse auf Benchmarks wie DIHARD und AMI. Das Modell ist auf Hugging Face gated, aber frei verfügbar unter einer Lizenz. Es wurde über 5,9 Millionen Mal heruntergeladen und hat über 2.300 Likes erhalten, was es zu einem der beliebtesten Werkzeuge für die Sprecher-Diarisierung macht.

💡Highlights

├─Anpassbare Pipeline mit 4 Modulen
├─Spitzenwerte auf DIHARD & AMI
└─5,9 Mio. Downloads auf Hugging Face

🎯Für

├─Sprachforscher
├─Audioingenieure
└─Transkriptionsentwickler

🔗Links

└─Hugging Face