VachanVY/Transfusion.torch

📦 오픈 소스 프로젝트VachanVY

텍스트 예측과 이미지 확산을 하나의 모델로 통합한 Transfusion 아키텍처의 PyTorch 구현체입니다.

Transfusion.torch는 Transfusion 아키텍처를 위한 깔끔하고 모듈화된 PyTorch 코드베이스를 제공합니다. Transfusion의 핵심 혁신은 단일 트랜스포머가 텍스트에 대한 다음 토큰 예측을 수행함과 동시에 이미지 확산 학습을 수행할 수 있다는 점입니다. 이는 이미지 패치를 연속적인 토큰으로 취급하여 표준 트랜스포머 학습 루프에 직접 통합된 확산 과정을 통해 생성하도록 학습함으로써 달성됩니다. 이 저장소에는 교차 모달 어텐션 메커니즘과 텍스트 생성 및 이미지 확산 간의 균형을 맞추는 데 필요한 특정 손실 함수를 처리하는 구성 요소가 포함되어 있습니다. 별도의 인코더나 복잡한 다단계 학습 파이프라인에 의존하지 않는 통합 멀티모달 아키텍처를 실험하려는 연구자와 개발자를 위해 설계되었습니다. 가독성과 확장성에 중점을 두어 멀티모달 파운데이션 모델의 최전선을 탐구하려는 이들에게 훌륭한 출발점이 됩니다.

💡하이라이트

├─텍스트와 이미지 통합 아키텍처
├─PyTorch 기반의 모듈형 구현
└─확산 기반 생성 모델 지원

🎯대상

├─AI 연구원
└─멀티모달 딥러닝 엔지니어

🔗링크

└─GitHub 저장소