
VachanVY/Transfusion.torch
📦 Open Source ProjectVachanVY
Реализация архитектуры Transfusion на PyTorch, объединяющая предсказание токенов и диффузию изображений в одной модели.
Transfusion.torch предоставляет чистую и модульную кодовую базу на PyTorch для архитектуры Transfusion. Ключевая инновация Transfusion заключается в возможности обучения одного трансформера, который одновременно выполняет предсказание следующего токена для текста и обучается диффузии изображений. Это достигается за счет обработки патчей изображения как непрерывных токенов, которые модель генерирует через процесс диффузии, интегрированный непосредственно в стандартный цикл обучения трансформера. Репозиторий включает компоненты для работы с механизмами кросс-модального внимания и специфическими функциями потерь, необходимыми для балансировки генерации текста и диффузии изображений. Проект предназначен для исследователей и разработчиков, желающих экспериментировать с унифицированными мультимодальными архитектурами, не полагаясь на отдельные энкодеры или сложные многоэтапные процессы обучения. Реализация ориентирована на читаемость и расширяемость кода.
💡Основное
- ├─Единая архитектура текста и изображений
- ├─Модульная реализация на PyTorch
- └─Поддержка генерации через диффузию
🎯Для
- ├─Исследователи ИИ
- └─Инженеры по мультимодальному глубокому обучению