lpiccinelli/unidepth-v2-vitl14
🧠 AI 模型lpiccinelli
基于ViT-L骨干网络的单目度量深度估计最先进模型。
UniDepth v2 (ViT-L/14) 是一款强大的单目深度估计模型,利用 Vision Transformer 骨干网络预测度量深度图。它处理单张 RGB 图像,输出具有度量尺度的密集深度图。模型在包含室内 (NYUv2) 和室外 (KITTI) 场景的多样化数据集上训练,达到最先进性能。它采用 PyTorch 框架和 safetensors 实现高效存储,专为实时应用设计,并通过 model_hub_mixin 与 Hugging Face 生态系统集成。
💡核心亮点
- ├─ViT-L/14 骨干网络
- ├─度量深度估计
- └─500万+ HuggingFace 下载
🎯适用人群
- ├─计算机视觉研究人员
- ├─自动驾驶工程师
- └─AR/VR 开发者