nvidia/Qwen3.6-35B-A3B-NVFP4

🧠 AI 모델nvidia

NVIDIA의 고급 FP4 양자화 기술이 적용된 고성능 35B 파라미터 MoE 모델입니다.

nvidia/Qwen3.6-35B-A3B-NVFP4 모델은 모델 압축 및 배포 효율성 측면에서 중요한 이정표를 제시합니다. NVIDIA의 고급 Model Optimizer(ModelOpt) 기술을 적용하여 4비트 부동소수점(FP4) 정밀도를 달성했으며, 이는 표준 16비트 또는 8비트 모델 대비 VRAM 요구 사항을 크게 낮춰줍니다. MoE 아키텍처를 통해 추론 시 필요한 파라미터만 선택적으로 활성화함으로써, 연산 비용은 낮추면서도 동급 혹은 더 큰 밀집(dense) 모델과 경쟁할 수 있는 성능을 제공합니다. safetensors 형식으로 배포되어 안전하고 효율적인 로딩을 보장하며, NVIDIA 생태계와 통합되어 TensorRT-LLM 등 고성능 추론 엔진과 원활하게 호환됩니다. 이는 생산 환경에서 고파라미터 모델의 접근성을 높이는 양자화 기술의 표준을 보여줍니다.

💡하이라이트

├─35B 파라미터 MoE 아키텍처
├─FP4 양자화로 최적화된 효율성
└─고성능 텍스트 생성 지원

🎯대상

├─AI 연구원
├─머신러닝 엔지니어
└─엣지 컴퓨팅 개발자

🔗링크

└─Hugging Face 저장소