demidovd98/sm-vit

📦 开源项目demidovd98

一种利用显著性掩码引导的视觉Transformer架构，旨在提升细粒度图像分类的准确性。

SM-ViT 通过在视觉Transformer (ViT) 架构中引入显著性掩码引导模块，解决了细粒度分类的挑战。与将所有图像块视为同等重要的标准ViT不同，SM-ViT 采用显著性引导机制来突出信息丰富的区域。通过屏蔽非必要的背景噪声并强调显著特征，该模型在区分视觉相似类别时实现了更高的精度。该存储库提供了官方实现，包括Python编写的训练脚本和模型架构定义。它专为从事计算机视觉研究的开发者设计，旨在从复杂、细粒度的数据集中提取高级特征。该项目展示了如何通过显著性先验增强空间注意力，从而提高基于Transformer的视觉模型的鲁棒性和可解释性。

💡核心亮点

├─显著性引导的图像块选择机制
├─针对细粒度分类任务进行优化
└─VISIGRAPP '23 论文官方架构

🎯适用人群

├─计算机视觉研究人员
└─机器学习工程师

🔗链接

└─GitHub 仓库