
kyegomez/MambaByte
📦 Open Source Projectkyegomez
PyTorch-реализация MambaByte: эффективная модель на основе состояний (SSM) без использования токенизатора.
MambaByte знаменует собой важный сдвиг в моделировании последовательностей, применяя селективные модели пространства состояний (SSM) к байтовым входным данным. В отличие от традиционных больших языковых моделей, зависящих от фиксированных словарей и токенизаторов, MambaByte работает непосредственно с байтами, что устраняет проблемы с токенами вне словаря и предвзятостью токенизации для разных языков. Эта реализация, созданная на базе PyTorch и библиотеки Zeta, закладывает фундамент для обучения моделей, способных обрабатывать произвольные длины последовательностей с линейной сложностью масштабирования. Благодаря механизму селективного сканирования архитектуры Mamba, модель сохраняет высокую производительность, значительно снижая потребление памяти, характерное для длинных контекстов в трансформерах. Репозиторий предназначен для исследователей и разработчиков, желающих экспериментировать с архитектурами без токенизации, предоставляя модульные компоненты для интеграции SSM в глубокие нейросетевые конвейеры.
💡Основное
- ├─Обработка байтов без токенизатора
- ├─Линейное масштабирование от длины
- └─Селективная модель состояний (SSM)
🎯Для
- ├─AI-исследователи
- └─Инженеры по машинному обучению