nvidia/DeepSeek-R1-0528-NVFP4-v2
🧠 AI 모델nvidia
NVIDIA Blackwell GPU에서 대규모 추론을 위한 NVFP4 양자화 DeepSeek-R1 모델
DeepSeek-R1-0528-NVFP4-v2는 NVIDIA의 ModelOpt(Model Optimizer) 툴킷을 통해 NVFP4 양자화 형식으로 압축된 DeepSeek-R1 추론 모델의 최적화 변형입니다. NVFP4는 NVIDIA Blackwell 아키텍처(B200)의 네이티브 FP4 텐서 코어 지원을 활용하여, 복잡한 추론 작업의 모델 품질을 유지하면서도 FP8 또는 BF16 변형 대비 메모리 소비를 크게 줄이고 추론 처리량을 개선합니다. 이 모델은 전문가 혼합(MoE) 설계인 DeepSeek V3 아키텍처를 기반으로 하며 safetensors 형식으로 배포됩니다. FP4로의 양자화를 통해 전체 R1 모델이 더 제한된 VRAM 예산 내에서 실행할 수 있어 대규모 추론의 접근성이 높아집니다. 이번 v2 릴리스는 초기 NVFP4 릴리스 대비 캘리브레이션 및 양자화 방식을 개선하여 수학, 코딩, 일반 추론 벤치마크에서의 품질 저하를 추가로 줄였습니다.
💡하이라이트
- ├─ModelOpt 기반 NVFP4 4비트 양자화
- ├─NVIDIA Blackwell GPU에 최적화
- ├─DeepSeek-R1 추론 품질 유지
- └─Hugging Face 다운로드 100만 회 돌파
🎯대상
- ├─AI 추론 엔지니어
- ├─ML 양자화 연구자
- └─NVIDIA GPU 개발자