pyannote/speaker-diarization-3.1

🧠 Модель ИИpyannote

Современный пайплайн диаризации дикторов, определяющий, кто и когда говорит в аудио.

pyannote/speaker-diarization-3.1 — это полный настраиваемый пайплайн диаризации дикторов, построенный на библиотеке pyannote-audio. Он включает четыре основных компонента: модель обнаружения речевой активности (VAD), модель обнаружения смены диктора (SCD), модель обнаружения наложений (OL) и модуль кластеризации на основе эмбеддингов дикторов. Пайплайн обрабатывает сырое аудио и выводит сегменты с метками дикторов. Версия 3.1 представляет улучшенное обнаружение наложений и улучшенные модели эмбеддингов, что приводит к лучшей производительности в сложных сценариях, таких как перекрывающаяся речь и короткие сегменты. Он достигает самых современных результатов на эталонах, таких как DIHARD и AMI. Модель имеет ограниченный доступ на Hugging Face, но свободно доступна по лицензии. Она набрала более 5,9 миллионов загрузок и более 2300 лайков, что делает её одним из самых популярных инструментов диаризации дикторов.

💡Основное

├─Настраиваемый пайплайн из 4 модулей
├─Современное качество на DIHARD и AMI
└─5,9М+ загрузок на Hugging Face

🎯Для

├─Исследователи речи
├─аудиоинженеры
└─разработчики транскрипции

🔗Ссылки

└─Hugging Face