
yandex-research/tab-ddpm
📦 오픈 소스 프로젝트yandex-research
고품질 합성 정형 데이터 생성을 위한 강력한 확산 모델 기반 생성 프레임워크.
TabDDPM은 이미지 및 오디오 생성에 주로 사용되던 확산 모델을 정형 데이터 형식에 맞게 조정하여 정형 데이터 모델링의 패러다임을 전환했습니다. 이 프레임워크는 정형 데이터를 순방향 및 역방향 확산 과정을 통해 학습해야 할 분포로 취급합니다. 주요 기술적 혁신으로는 범주형 및 수치형 특성을 동시에 처리하는 특수 아키텍처를 통해 원본 데이터셋의 복잡한 상관관계를 보존하는 점이 있습니다. 본 저장소에는 전체 학습 파이프라인, 평가 스크립트 및 다양한 벤치마크 데이터셋을 위한 사전 구성된 모델이 포함되어 있습니다. 확산 과정의 안정성을 활용하는 TabDDPM은 CTGAN이나 TVAE와 같은 기존 방식보다 뛰어난 성능을 보이는 경우가 많으며, 예측 모델링이나 데이터 익명화 작업을 위한 보다 신뢰할 수 있는 합성 샘플 생성 방법을 제공합니다. 구현이 매우 모듈화되어 있어 연구자들이 PyTorch 생태계 내에서 다양한 노이즈 스케줄과 모델 아키텍처를 실험할 수 있습니다.
💡하이라이트
- ├─확산 모델 기반 정형 데이터 생성
- ├─GAN 및 VAE 대비 우수한 성능
- └─ICML 2023 공식 구현체
🎯대상
- ├─데이터 과학자
- └─머신러닝 연구원