
demidovd98/sm-vit
📦 开源项目demidovd98
一种利用显著性掩码引导的视觉Transformer架构,旨在提升细粒度图像分类的准确性。
SM-ViT 通过在视觉Transformer (ViT) 架构中引入显著性掩码引导模块,解决了细粒度分类的挑战。与将所有图像块视为同等重要的标准ViT不同,SM-ViT 采用显著性引导机制来突出信息丰富的区域。通过屏蔽非必要的背景噪声并强调显著特征,该模型在区分视觉相似类别时实现了更高的精度。该存储库提供了官方实现,包括Python编写的训练脚本和模型架构定义。它专为从事计算机视觉研究的开发者设计,旨在从复杂、细粒度的数据集中提取高级特征。该项目展示了如何通过显著性先验增强空间注意力,从而提高基于Transformer的视觉模型的鲁棒性和可解释性。