通信学报 ›› 2021, Vol. 42 ›› Issue (3): 23-35.doi: 10.11959/j.issn.1000-436x.2021025

• 学术论文 • 上一篇    下一篇

基于对抗补丁的可泛化的Grad-CAM攻击方法

司念文1, 张文林1, 屈丹1, 常禾雨2, 李盛祥1, 牛铜1   

  1. 1 信息工程大学信息系统工程学院,河南 郑州 450001
    2 信息工程大学密码工程学院,河南 郑州 450001
  • 修回日期:2020-12-22 出版日期:2021-03-25 发布日期:2021-03-01
  • 作者简介:司念文(1992- ),男,湖北襄阳人,信息工程大学博士生,主要研究方向为深度学习的安全性与可解释性。
    张文林(1982- ),男,湖北黄冈人,博士,信息工程大学副教授、硕士生导师,主要研究方向为语音信号处理、语音识别、机器学习等。
    屈丹(1974- ),女,吉林九台人,博士,信息工程大学教授、博士生导师,主要研究方向为语音识别、智能信息处理、机器学习等。
    常禾雨(1993- ),女,河南郑州人,信息工程大学博士生,主要研究方向为深度学习与行人检测、行人重识别。
    李盛祥(1991- ),男,湖南邵阳人,信息工程大学博士生,主要研究方向为多智能体强化学习。
    牛铜(1984- ),男,河南郑州人,信息工程大学副教授,主要研究方向为语音增强、语音识别、深度学习等。
  • 基金资助:
    国家自然科学基金资助项目(61673395)

Generalized Grad-CAM attacking method based on adversarial patch

Nianwen SI1, Wenlin ZHANG1, Dan QU1, Heyu CHANG2, Shengxiang LI1, Tong NIU1   

  1. 1 Department of Information System Engineering, Information Engineering University, Zhengzhou 450001, China
    2 Department of Cryptogram Engineering, Information Engineering University, Zhengzhou 450001, China
  • Revised:2020-12-22 Online:2021-03-25 Published:2021-03-01
  • Supported by:
    The National Natural Science Foundation of China(61673395)

摘要:

为了验证Grad-CAM解释方法的脆弱性,提出了一种基于对抗补丁的Grad-CAM攻击方法。通过在CNN分类损失函数后添加对Grad-CAM类激活图的约束项,可以针对性地优化出一个对抗补丁并合成对抗图像。该对抗图像可在分类结果保持不变的情况下,使Grad-CAM解释结果偏向补丁区域,实现对解释结果的攻击。同时,通过在数据集上的批次训练及增加扰动范数约束,提升了对抗补丁的泛化性和多场景可用性。在ILSVRC2012数据集上的实验结果表明,与现有方法相比,所提方法能够在保持模型分类精度的同时,更简单有效地攻击Grad-CAM解释结果。

关键词: 卷积神经网络, 可解释性, 对抗补丁, 类激活图, 显著图

Abstract:

To verify the fragility of the Grad-CAM, a Grad-CAM attack method based on adversarial patch was proposed.By adding a constraint to the Grad-CAM in the classification loss function, an adversarial patch could be optimized and the adversarial image could be synthesized.The adversarial image guided the Grad-CAM interpretation result towards the patch area while the classification result remains unchanged, so as to attack the interpretations.Meanwhile, through batch-training on the dataset and increasing perturbation norm constraint, the generalization and the multi-scene usability of the adversarial patch were improved.Experimental results on the ILSVRC2012 dataset show that compared with the existing methods, the proposed method can attack the interpretation results of the Grad-CAM more simply and effectively while maintaining the classification accuracy.

Key words: convolutional neural network, interpretability, adversarial patch, class activation map, saliency map

中图分类号: 

No Suggested Reading articles found!