laura-rieger/deep-explanation-penalization

📦 开源项目laura-rieger

通过在训练中惩罚模型解释，将神经网络与人类先验知识对齐的框架。

Deep Explanation Penalization (CDEP) 框架通过引入基于可解释性的模型行为正则化机制，解决了深度学习的“黑盒”问题。CDEP 不再将模型解释仅视为事后分析工具，而是将其直接集成到损失函数中。这使得从业者能够在模型决策过程依赖于已知无关或有偏见的特征时对其进行惩罚，从而有效地引导网络学习更稳健、更符合逻辑的表示。该实现支持多种神经网络架构，包括卷积神经网络 (CNN) 和循环神经网络 (RNN)。通过利用基于梯度的解释方法，CDEP 计算输入特征的重要性，并在这些重要性偏离预期先验知识时施加惩罚。这种方法在医疗或金融等高风险领域尤为重要，因为在这些领域，模型的透明度和对特定领域约束的遵守对于部署至关重要。该仓库包含 Jupyter Notebook，演示了如何应用这些惩罚措施，以确保模型在进行预测时关注“正确”的依据。

💡核心亮点

├─将模型解释直接集成到损失函数中
├─使模型预测与人类先验知识对齐
└─支持 CNN 和 RNN 等多种神经网络架构

🎯适用人群

├─AI 研究人员
└─机器学习工程师

🔗链接

├─GitHub 仓库
└─研究论文