lpiccinelli/unidepth-v2-vitl14

🧠 AI 模型lpiccinelli

基于ViT-L骨干网络的单目度量深度估计最先进模型。

UniDepth v2 (ViT-L/14) 是一款强大的单目深度估计模型，利用 Vision Transformer 骨干网络预测度量深度图。它处理单张 RGB 图像，输出具有度量尺度的密集深度图。模型在包含室内 (NYUv2) 和室外 (KITTI) 场景的多样化数据集上训练，达到最先进性能。它采用 PyTorch 框架和 safetensors 实现高效存储，专为实时应用设计，并通过 model_hub_mixin 与 Hugging Face 生态系统集成。

💡核心亮点

├─ViT-L/14 骨干网络
├─度量深度估计
└─500万+ HuggingFace 下载

🎯适用人群

├─计算机视觉研究人员
├─自动驾驶工程师
└─AR/VR 开发者

🔗链接

└─HuggingFace 模型