lhotse-speech/lhotse

🔧 Инструментlhotse-speech

Инструментарий для работы с мультимодальными данными, особенно для аудио/речевых ML-пайплайнов.

Lhotse предлагает полный набор для управления мультимодальными данными в проектах ML. Ключевые возможности: представление датасетов на основе манифестов, гибкая загрузка аудио/видео с несколькими бэкендами (soundfile, torchaudio и др.), извлечение признаков на лету (Fbank, MFCC, спектрограмма), аугментация данных (изменение скорости, шум, реверберация), динамическое смешивание (cut mixing) и поддержка потоковой обработки для больших корпусов. Он бесшовно интегрируется с PyTorch DataLoader и рецептами Kaldi, обеспечивая масштабируемые обучающие пайплайны. Изначально разработан для распознавания речи, поддерживает произвольные мультимодальные последовательности и используется в производственных системах.

💡Основное

├─1.1k+ звезд, 277 форков
├─Python, интеграция с PyTorch и Kaldi
└─Эффективный пайплайн мультимодальных данных

🎯Для

├─Исследователи речи
├─ML-инженеры
└─Специалисты по данным

🔗Ссылки

└─Репозиторий GitHub