基于决策边界搜索的对抗样本生成算法

刘欣刚; 江浩杨; 苏鑫; 冯晶

doi:10.12178/1001-0548.2021396

基于决策边界搜索的对抗样本生成算法

doi: 10.12178/1001-0548.2021396

电子科技大学信息与通信工程学院　成都　611731

基金项目: 国家自然科学基金(61872404)

详细信息

作者简介:
刘欣刚(1978-)，男，博士，教授，主要从事视频编码、图像视频处理、人工智能等方面的研究

通讯作者: 刘欣刚，E-mail：hanksliu@uestc.edu.cn

中图分类号: TP391.4

Adversarial ExamplesGeneration Algorithm Based on Decision Boundary Search

School of Information and Communication Engineering, University of Electronic Science and Technology of China　Chengdu　611731

摘要: 神经网络模型已被广泛运用于人工智能领域，并取得了成功，然而当前神经网络面临着对抗样本攻击的困扰。对抗样本是一种人为构造的虚假数据，可使得神经网络输出错误的结果。故提出了一种基于神经网络决策边界搜索的对抗样本生成算法。首先，在两个真实样本之间使用二分搜索来找到一个初始攻击点。然后，计算神经网络在决策边界面上的法线向量，以找到神经网络最敏感的方向。最后，使用方向信息迭代找到更接近原始数据点的对抗样本，直到对抗样本收敛。在公开的数据集上，使用该算法进行对抗样本攻击实验，实验结果表明该算法能够生成对抗扰动更小的对抗样本，并且可以与其他攻击算法结合，达到较好的攻击效果。
- 对抗攻击 /
- 对抗样本 /
- 神经网络 /
- 优化
Abstract: The neural network model has been widely used in the fields of artificial intelligence, and has achieved great success. However, the current neural network is facing the problem of adversarial examples attack, which is artificially constructed fake data that can cause a neural network to output incorrect results. This paper proposes an adversarial examples generation algorithm based on searching the decision boundary of neural network. Firstly, weusebinary search between two real samples to find aninitialattacking point. And then,we calculate the normal vector of the neural network on the decision boundary surface, in order to find the most sensitive direction of the neural network. Finally, we usethe direction information to iteratively find the adversarialexample closer to the original data point until the adversarial example converges. By applying the proposed algorithm on the public data sets, the experimental results show that the algorithm can generate adversarial examples with smaller adversarial perturbations, and it can be combined with other attack algorithms to achieve a better attack result.
- adversarial attack /
- adversarial examples /
- neural networks /
- optimization

图 1 典型白盒攻击流程

下载: 全尺寸图片幻灯片

图 2 线性决策器

下载: 全尺寸图片幻灯片

图 3 非线性决策器

下载: 全尺寸图片幻灯片

图 4 对抗样本攻击算法在3个模型上的攻击结果

下载: 全尺寸图片幻灯片

表 1 受攻击模型参数

数据集	分类模型	模型分类精度/%
MNIST	全连接网络	98.1
MNIST	LeNet	99.1
Fashion-MNIST	LeNet	89.8
Fashion-MNIST	ResNet	92.0
CIFAR10	ResNet	88.1

下载: 导出CSV

表 2 MNIST数据集攻击实验

分类模型	攻击类型	FGSM/FGM	PGD	Deep-Fool	本文算法
FC	$ {L}_{\infty } $	0.192	0.107	0.105	0.073
FC	$ {L}_{2} $	3.219	2.017	1.683	1.496
Le-Net	$ {L}_{\infty } $	0.244	0.116	0.122	0.082
Le-Net	$ {L}_{2} $	–	2.117	1.655	1.557

下载: 导出CSV

表 3 Fashion-MNIST数据集攻击实验

分类模型	攻击类型	FGSM/FGM	PGD	Deep-Fool	本文算法
Le-Net	$ {L}_{\infty } $	0.083	0.033	0.030	0.025
Le-Net	$ {L}_{2} $	–	–	0.473	0.467
Res-Net	$ {L}_{\infty } $	0.309	0.031	0.032	0.020
Res-Net	$ {L}_{2} $	–	0.731	0.425	0.353

下载: 导出CSV

表 4 CIFAR10数据集攻击实验

分类模型	攻击类型	FGSM/FGM	PGD	Deep-Fool	本文算法
Res-Net	$ {L}_{\infty } $	0.014	0.005	0.005	0.005
Res-Net	$ {L}_{2} $	0.497	0.196	0.193	0.175

下载: 导出CSV

表 5 使用DeepFool作为初始点攻击效果

数据集	分类模型	攻击类型	随机攻击点	DeepFool攻击起点
MNIST	FC	$ {L}_{\infty } $	0.073	0.061
	FC	$ {L}_{2} $	1.496	1.228
	LeNet	$ {L}_{\infty } $	0.082	0.064
	LeNet	$ {L}_{2} $	1.557	1.191
Fashion-MNIST	LeNet	$ {L}_{\infty } $	0.025	0.019
	LeNet	$ {L}_{2} $	0.467	0.368
	Res-Net	$ {L}_{\infty } $	0.020	0.018
	Res-Net	$ {L}_{2} $	0.353	0.285
CIFAR-10	Res-Net	$ {L}_{\infty } $	0.005	0.004
CIFAR-10	Res-Net	$ {L}_{2} $	0.175	0.149

下载: 导出CSV

[1]	KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90. doi: 10.1145/3065386
[2]	HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE Computer Society, 2016: 770-778.
[3]	GIRSHICK R B. Fast R-CNN[C]//IEEE International Conference on Computer Vision. Santiago: IEEE Computer Society, 2015: 1440-1448.
[4]	ZHU X, WANG Y, DAI J, et al. Flow-guided feature aggregation for video object detection[C]//IEEE International Conference on Computer Vision. Venice: IEEE Computer Society, 2017: 408-417.
[5]	SAK H, SENIOR A W, RAO K, et al. Fast and accurate recurrent neural network acoustic models for speech recognition[C]//Conference of the International Speech Communication Association. Dresden: Interational Speech Communication Association, 2015: 1468-1472.
[6]	DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[C]//Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Minneapolis: Association for Computational Linguistics, 2019: 4171-4186.
[7]	奚雪峰, 周国栋. 面向自然语言处理的深度学习研究[J]. 自动化学报, 2016, 42(10): 1445-1465. doi: 10.16383/j.aas.2016.c150682 XI X F, ZHOU G D. A survey on deep learning for natural language processing[J]. Acta Automatica Sinica, 2016, 42(10): 1445-1465. doi: 10.16383/j.aas.2016.c150682
[8]	SZEGEDY C, ZAREMBA W, SUTSKEVER I, et al. Intriguing properties of neural networks[C]//International Conference on Learning Representations. Banff: ICLR, 2014: 1-10.
[9]	CARLINI N, WAGNER D A. Towards evaluating the robustness of neural networks[C]//IEEE Symposium on Security and Privacy. San Jose: IEEE Computer Society, 2017: 39-57.
[10]	MOOSAVI-DEZFOOLI S M, FAWZI A, FROSSARD P. DeepFool: A simple and accurate method to fool deep neural networks[C]//IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE Computer Society, 2016: 2574-2582.
[11]	徐明, 蒋奔驰. 基于纹理和颜色感知距离的对抗样本生成算法[J]. 电子科技大学学报, 2021, 50(4): 558-564. doi: 10.12178/1001-0548.2021058 XU M, JIANG B C. Adversarial examples generation method based on texture and perceptual color distance[J]. Journal of University of Electronic Science and Technology of China, 2021, 50(4): 558-564. doi: 10.12178/1001-0548.2021058
[12]	FISCHER V, KUMAR M C, METZEN J H, et al. Adversarial examples for semantic image segmentation[C]//International Conference on Learning Representations. Toulon: OpenReview, 2017: 1-4.
[13]	CHENG M, YI J, CHEN P Y, et al. Seq2Sick: Evaluating the robustness of sequence-to-sequence models with adversarial examples[C]//AAAI Conference on Artificial Intelligence. New York: AAAI Press, 2020: 3601-3608.
[14]	仝鑫, 王斌君, 王润正, 等. 面向自然语言处理的深度学习对抗样本综述[J]. 计算机科学, 2021, 48(1): 258-267. doi: 10.11896/jsjkx.200500078 TONG X, WANG B J, WANG R Z, et al. Survey on adversarial sample of deep learning towards natural language processing[J]. Computer Science, 2021, 48(1): 258-267. doi: 10.11896/jsjkx.200500078
[15]	杜小虎, 吴宏明, 易子博, 等. 文本对抗样本攻击与防御技术综述[J]. 中文信息学报, 2021, 35(8): 1-15. doi: 10.3969/j.issn.1003-0077.2021.08.001 DU X H, WU H M, YI Z B, et al. Adversarial text attack and defense: A review[J]. Journal of Chinese Information Processing, 2021, 35(8): 1-15. doi: 10.3969/j.issn.1003-0077.2021.08.001
[16]	CARLINI N, WAGNER D A. Audio adversarial examples: Targeted attacks on speech-to-text[C]//IEEE Security and Privacy Workshops. San Francisco:. IEEE Computer Society, 2018: 1-7.
[17]	GOODFELLOW I J, SHLENS J, SZEGEDY C. Explaining and harnessing adversarial examples[C]//International Conference on Learning Representations. San Diego: ICLR, 2015: 1-11.
[18]	SU J, VARGAS D V, SAKURAI K. One pixel attack for fooling deep neural networks[J]. IEEE Transactions on Evolutionary Computation, 2019, 23(5): 828-841. doi: 10.1109/TEVC.2019.2890858
[19]	MODAS A, MOOSAVI-DEZFOOLI S M, FROSSARD P. SparseFool: A few pixels make a big difference[C]//IEEE Conference on Computer Vision and Pattern Recognition. Long Beach: Computer Vision Foundation IEEE, 2019: 9087-9096.
[20]	POURSAEED O, KATSMAN I, GAO B, et al. Generative adversarial perturbations[C]//IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: Computer Vision Foundation IEEE, 2018: 4422-4431.
[21]	LECUN Y, BOTTOU L. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324. doi: 10.1109/5.726791
[22]	XIAO H, RASUL K, VOLLGRAF R. Fashion-MNIST: A novel image dataset for benchmarking machine learning algorithms[EB/OL]. (2017-09-15). https://doi.org/10.48550/arXiv.1708.07747
[23]	KRIZHEVSKY A. Learning multiple layers of features from tiny images[J]. University of Toronto, 2012, 1(4): 1-58.
[24]	PASZKE A, GROSS S, MASSA F, et al. PyTorch: An imperative style, high-performance deep learning library[C]//Advances in Neural Information Processing Systems. Vancouver: MIT Press, 2019: 8024-8035.
[25]	MADRY A, MAKELOV A, SCHMIDT L, et al. Towards deep learning models resistant to adversarial attacks[C]//International Conference on Learning Representations. Vancouver: ICLR, 2018: 1-23.
[26]	RAUBER J, ZIMMERMANN R, BETHGE M, et al. Foolbox native: Fast adversarial attacks to benchmark the robustness of machine learning models in PyTorch, TensorFlow, and JAX[J]. J Open Source Softw, 2020, 5(53): 2607. doi: 10.21105/joss.02607

[1]	张云春, 王旺旺, 李成杰, 廖梓琨, 封凡, 林英. 物联网中融合网络流量的恶意软件检测 . 电子科技大学学报, 2023, 52(4): 602-609. doi: 10.12178/1001-0548.2022146
[2]	李林, 范明钰, 郝江涛. 基于对抗攻击的图像隐写策略搜索 . 电子科技大学学报, 2022, 51(2): 259-263. doi: 10.12178/1001-0548.2021335
[3]	徐明, 蒋奔驰. 基于纹理和颜色感知距离的对抗样本生成算法 . 电子科技大学学报, 2021, 50(4): 558-564. doi: 10.12178/1001-0548.2021058
[4]	杨旺功, 淮永建, 张福泉. 基于Gabor及深度神经网络的葡萄种子分类 . 电子科技大学学报, 2020, 49(1): 131-138. doi: 10.12178/1001-0548.2019164
[5]	唐东明, 卢显良. 用于网络编码优化的改进量子进化算法 . 电子科技大学学报, 2015, 44(2): 215-220. doi: 10.3969/j.issn.1001-0548.2015.02.010
[6]	陈其松, 陈孝威, 张欣, 吴茂念. 优化SVM在锅炉负荷预测中的应用 . 电子科技大学学报, 2010, 39(2): 316-320. doi: 10.3969/j.issn.1001-0548.2010.02.035
[7]	张骏, 向渝, 汪文勇. 无线传感器网络节点能耗状态转换模型研究 . 电子科技大学学报, 2009, 38(4): 596-599. doi: 10.3969/j.issn.1001-0548.2009.04.028
[8]	黄建国, 罗航, 王厚军, 龙兵. 运用GA-BP神经网络研究时间序列的预测 . 电子科技大学学报, 2009, 38(5): 687-692. doi: 10.3969/j.issn.1001-0548.2009.05.028
[9]	王秉中, 邵维, 赖生建, 洪劲松, 肖绍球, 杨雪松, 邓建华. 电子科技大学计算电磁学实验室对计算电磁学的研究进展 . 电子科技大学学报, 2009, 38(5): 568-578. doi: 10.3969/j.issn.1001-0548.2009.05.012
[10]	陈文宇, 刘井波, 孙世新. 层次分析的神经网络集成方法 . 电子科技大学学报, 2008, 37(3): 432-435.
[11]	殷时蓉, 陈光, 谢永乐. 应用Elman网络优化非线性模拟电路测试激励 . 电子科技大学学报, 2008, 37(4): 574-577.
[12]	傅彦, 周俊临, 吴跃. 快速神经网络无损压缩方法研究 . 电子科技大学学报, 2007, 36(6): 1245-1248.
[13]	陈科, 许家珆, 程永新. 基于免疫算法和神经网络的新型抗体网络 . 电子科技大学学报, 2006, 35(5): 804-806,840.
[14]	秦东兴, 骆德渊, 卢凉, 董伟. 原料混匀料车间的设计优化与仿真 . 电子科技大学学报, 2005, 34(4): 548-551.
[15]	文武, 杨汉生, 徐军, 钟守铭. 随机型细胞神经网络的稳定性 . 电子科技大学学报, 2005, 34(5): 700-702,716.
[16]	徐军, 钟守铭, 张春凤. 分布时滞Hopfield神经网络稳定性 . 电子科技大学学报, 2004, 33(2): 200-203.
[17]	王定成, 王毅, 钟守铭. 一类神经网络算法的渐近行为 . 电子科技大学学报, 2003, 32(2): 221-224.
[18]	陈中柘. 神经网络定性分析 . 电子科技大学学报, 2002, 31(3): 250-254.
[19]	唐普英, 杨春华, 黄顺吉. 一种基于优化神经网络的最佳多用户检测器 . 电子科技大学学报, 1999, 28(2): 116-119.
[20]	胡涛, 王守绪, 杨邦朝. 用单纯形优化法研究铝箔腐蚀工艺 . 电子科技大学学报, 1998, 27(4): 449-452.

点击查看大图

图(4) / 表(5)

计量

文章访问数: 4518
HTML全文浏览量: 1223
PDF下载量: 88
被引次数: 0

全文HTML

深度神经网络模型被广泛应用于各种机器学习领域，包括图像识别^[1-2]、图像与视频目标检测领域^[3-4]、音频数据处理^[5]和自然语言处理领域^[6-7]等。深度神经网络模型在许多任务上都取得了成功。

然而研究发现神经网络模型容易受到一种虚假样本的攻击^[8]。这种样本通常是在真实数据样本上进行一定程度的轻微修改而生成的。当这种虚假样本输入到神经网络中，神经网络会产生与原始真实数据完全不同的输出。这样的虚假样本通常被称为对抗样本。

对抗样本被发现存在于许多领域。在图像处理领域，被轻微修改的图像可以使得神经网络对图像给出错误的分类^[9-11]，也可以使得语义分割模型完全无法识别图像上的人物^[12]；在自然语言处理领域，Seq2Sick攻击可以生成对抗性的文本，使得基于序列的神经网络翻译模型无法正确理解文本的语义^[13-15]；在音频数据领域，文献[16]提出了一种算法，将一个噪音嵌入到正常音频中，可以使得音频语义识别网络输出想要的任意结果。

对抗样本的生成技术也被广泛研究。文献[17]指出对抗样本的存在与神经网络的高度线性性质有关，并提出了一种快速梯度下降法(fast gradient sign attack, FGSM)来生成对抗样本，这种方法针对非鲁棒性模型非常有效，并且对抗样本的生成速度也非常快。文献[10]提出了一种有效生成最小化$ {L}_{2} $度量距离的对抗样本技术，其所生成对抗样本的扰动相比FGSM更加隐蔽。文献[9]通过求解优化问题的方式找到对抗样本，该方法可以计算任意$ p $范数的最小化$ {L}_{p} $的对抗样本。文献[18-19]提出了寻找稀疏形式对抗样本的攻击，可以只改变少量的像素点即可达成攻击。文献[20]利用对抗生成网络框架，提出使用神经网络生成对抗样本，这种方法可以针对目标模型快速生成对抗样本。然而，这些方法大都使用类似梯度函数方向更新的方法，计算真实样本点附近的梯度，寻找可以使损失函数增大的对抗样本，而没有考虑沿着决策函数的边界进行搜索以寻找扰动最小的样本。

本文提出了一种基于神经网络决策边界搜索的对抗样本生成算法。该算法首先使用线性搜索或二分搜索在数据空间中找到一个处于决策边界的数据点，并计算该点相对于决策函数的法向量方向，基于决策平面局部平滑的假设，利用法向量的正交空间，寻找一个更接近真实样本的数据点，通过多步迭代的方式最终找到最优对抗样本。本文将该过程进行数学建模，然后将该数学问题转化为一个标准的优化问题。为了求解该优化问题，首先推导出当神经网络决策函数为仿射函数时的解析解，然后给出在更一般情况下的迭代式求解算法。

4. 结束语

本文提出了一种新的对抗攻击算法，即基于分类模型决策函数边界的对抗样本搜索算法。该算法是基于现有的神经网络图像分类模型的全局连续性与可导性，使用多步迭代的方式在分类模型的决策边界寻找一个与原数据点距离相近的对抗样本。

实验证明在数据分布简单的数据集上，本文方法可以取得最优的攻击效果。而在复杂数据集上，需要使用更有效的方式找到攻击初始点，以保证整体的攻击性能。这表明本文算法可以有效地优化其他对抗攻击算法所生成的对抗样本。因此，在后续设计其他对抗样本生成技术时，可以将本文提出的迭代的搜索方法作为优化手段，提升其他攻击算法的性能。

参考文献 (26)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于决策边界搜索的对抗样本生成算法

doi: 10.12178/1001-0548.2021396

作者简介:
刘欣刚(1978-)，男，博士，教授，主要从事视频编码、图像视频处理、人工智能等方面的研究

通讯作者: 刘欣刚，E-mail：hanksliu@uestc.edu.cn

Adversarial ExamplesGeneration Algorithm Based on Decision Boundary Search

计量

基于决策边界搜索的对抗样本生成算法

doi: 10.12178/1001-0548.2021396

电子科技大学信息与通信工程学院　成都　611731

作者简介:
刘欣刚(1978-)，男，博士，教授，主要从事视频编码、图像视频处理、人工智能等方面的研究

通讯作者: 刘欣刚，E-mail：hanksliu@uestc.edu.cn

English Abstract

Adversarial ExamplesGeneration Algorithm Based on Decision Boundary Search

School of Information and Communication Engineering, University of Electronic Science and Technology of China　Chengdu　611731

全文HTML

2.1. 随机初始点搜索

2.2. 迭代攻击算法

2.3. 针对无穷范数指标的攻击优化

2.4. 整体攻击流程

3.1. 实验设置

3.2. 实验结果

目录

期刊在线

编辑办公

友情链接

留言板

基于决策边界搜索的对抗样本生成算法

doi: 10.12178/1001-0548.2021396

作者简介: 刘欣刚(1978-)，男，博士，教授，主要从事视频编码、图像视频处理、人工智能等方面的研究

通讯作者: 刘欣刚，E-mail：hanksliu@uestc.edu.cn

Adversarial ExamplesGeneration Algorithm Based on Decision Boundary Search

计量

出版历程

基于决策边界搜索的对抗样本生成算法

doi: 10.12178/1001-0548.2021396

电子科技大学信息与通信工程学院 成都 611731

作者简介: 刘欣刚(1978-)，男，博士，教授，主要从事视频编码、图像视频处理、人工智能等方面的研究

通讯作者: 刘欣刚，E-mail：hanksliu@uestc.edu.cn

English Abstract

Adversarial ExamplesGeneration Algorithm Based on Decision Boundary Search

School of Information and Communication Engineering, University of Electronic Science and Technology of China Chengdu 611731

全文HTML

2.1. 随机初始点搜索

2.2. 迭代攻击算法

2.3. 针对无穷范数指标的攻击优化

2.4. 整体攻击流程

3.1. 实验设置

3.2. 实验结果

目录

期刊在线

编辑办公

友情链接

作者简介:
刘欣刚(1978-)，男，博士，教授，主要从事视频编码、图像视频处理、人工智能等方面的研究

电子科技大学信息与通信工程学院　成都　611731

作者简介:
刘欣刚(1978-)，男，博士，教授，主要从事视频编码、图像视频处理、人工智能等方面的研究

School of Information and Communication Engineering, University of Electronic Science and Technology of China　Chengdu　611731