
lhotse-speech/lhotse
🔧 Инструментlhotse-speech
Инструментарий для работы с мультимодальными данными, особенно для аудио/речевых ML-пайплайнов.
Lhotse предлагает полный набор для управления мультимодальными данными в проектах ML. Ключевые возможности: представление датасетов на основе манифестов, гибкая загрузка аудио/видео с несколькими бэкендами (soundfile, torchaudio и др.), извлечение признаков на лету (Fbank, MFCC, спектрограмма), аугментация данных (изменение скорости, шум, реверберация), динамическое смешивание (cut mixing) и поддержка потоковой обработки для больших корпусов. Он бесшовно интегрируется с PyTorch DataLoader и рецептами Kaldi, обеспечивая масштабируемые обучающие пайплайны. Изначально разработан для распознавания речи, поддерживает произвольные мультимодальные последовательности и используется в производственных системах.
💡Основное
- ├─1.1k+ звезд, 277 форков
- ├─Python, интеграция с PyTorch и Kaldi
- └─Эффективный пайплайн мультимодальных данных
🎯Для
- ├─Исследователи речи
- ├─ML-инженеры
- └─Специалисты по данным