pyannote/speaker-diarization-3.1
🧠 Модель ИИpyannote
Современный пайплайн диаризации дикторов, определяющий, кто и когда говорит в аудио.
pyannote/speaker-diarization-3.1 — это полный настраиваемый пайплайн диаризации дикторов, построенный на библиотеке pyannote-audio. Он включает четыре основных компонента: модель обнаружения речевой активности (VAD), модель обнаружения смены диктора (SCD), модель обнаружения наложений (OL) и модуль кластеризации на основе эмбеддингов дикторов. Пайплайн обрабатывает сырое аудио и выводит сегменты с метками дикторов. Версия 3.1 представляет улучшенное обнаружение наложений и улучшенные модели эмбеддингов, что приводит к лучшей производительности в сложных сценариях, таких как перекрывающаяся речь и короткие сегменты. Он достигает самых современных результатов на эталонах, таких как DIHARD и AMI. Модель имеет ограниченный доступ на Hugging Face, но свободно доступна по лицензии. Она набрала более 5,9 миллионов загрузок и более 2300 лайков, что делает её одним из самых популярных инструментов диаризации дикторов.
💡Основное
- ├─Настраиваемый пайплайн из 4 модулей
- ├─Современное качество на DIHARD и AMI
- └─5,9М+ загрузок на Hugging Face
🎯Для
- ├─Исследователи речи
- ├─аудиоинженеры
- └─разработчики транскрипции