VachanVY/Transfusion.torch

📦 Open Source ProjectVachanVY

Реализация архитектуры Transfusion на PyTorch, объединяющая предсказание токенов и диффузию изображений в одной модели.

Transfusion.torch предоставляет чистую и модульную кодовую базу на PyTorch для архитектуры Transfusion. Ключевая инновация Transfusion заключается в возможности обучения одного трансформера, который одновременно выполняет предсказание следующего токена для текста и обучается диффузии изображений. Это достигается за счет обработки патчей изображения как непрерывных токенов, которые модель генерирует через процесс диффузии, интегрированный непосредственно в стандартный цикл обучения трансформера. Репозиторий включает компоненты для работы с механизмами кросс-модального внимания и специфическими функциями потерь, необходимыми для балансировки генерации текста и диффузии изображений. Проект предназначен для исследователей и разработчиков, желающих экспериментировать с унифицированными мультимодальными архитектурами, не полагаясь на отдельные энкодеры или сложные многоэтапные процессы обучения. Реализация ориентирована на читаемость и расширяемость кода.

💡Основное

├─Единая архитектура текста и изображений
├─Модульная реализация на PyTorch
└─Поддержка генерации через диффузию

🎯Для

├─Исследователи ИИ
└─Инженеры по мультимодальному глубокому обучению

🔗Ссылки

└─Репозиторий GitHub