基于CWGAN-GP平衡化的网络恶意流量识别方法

丁要军; 王安宙

doi:10.12178/1001-0548.2022011

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名

邮箱

手机号码

标题

留言内容

验证码

基于CWGAN-GP平衡化的网络恶意流量识别方法

甘肃政法大学网络空间安全学院　兰州　730070

基金项目: 甘肃省高等学校产业支撑计划(2020C-29)

详细信息

作者简介:
丁要军(1980 − )，男，博士，教授，主要从事网络安全及机器学习等方面的研究

通讯作者: 丁要军，E-mail：dingyj80@163.com

中图分类号: TN915.08; TP181

摘要: 在网络恶意流量识别任务中，存在恶意流量样本数量与正常流量样本比例不平衡问题，从而导致训练出的机器学习模型泛化能力差、识别准确率低。为此，在网络流量图片化的基础上提出一种利用具有梯度惩罚项的条件Wasserstein生成对抗网络(CWGAN-GP)对少量数据类进行平衡的分类方法。该方法首先借助网络流量图片化方法将原始流量PCAP数据按照流为单位进行切分、填充、映射到灰度图片中；然后使用CWGAN-GP方法实现数据集的平衡；最后，在公开数据集USTC-TFC2016和CICIDS2017上使用CNN模型对不平衡数据集和平衡后的数据集进行分类测试。实验结果表明，使用CWGAN-GP的平衡方法在精确度、召回率、F1这3个指标上均优于随机过采样、SMOTE、GAN以及WGAN平衡方法。

关键词:

Abstract: In the network malicious traffic identification task, there is an imbalance between the ratio of the number of malicious traffic samples and the number of normal traffic samples, which leads to poor generalization ability and low recognition accuracy of the trained machine learning model. To solve this problem, this paper proposes a classification method that balances a small number of data classes by using the conditional Wasserstein generative adversarial network (CWGAN-GP) with gradient penalty items based on the visualization of network traffic. This method first uses the network traffic visualization method to segment, fill, and map the original traffic packet capture (PCAP) data into gray-scale images according to the flow as a unit, and then applies the CWGAN-GP method to achieve the balance of the dataset. Finally, in the public dataset USTC-TFC2016 and CICIDS2017, the convolutional neural network (CNN) model is used to classify and test the unbalanced dataset and the balanced dataset. The experimental results show that the balance method using CWGAN-GP is better than the random oversampling, SMOTE, GAN and WGAN balance methods in the three indicators of Precision, Recall, and F1.

Key words:

编号

应用类别

平衡前

平衡后

数量

占比/%

数量

占比/%

Ftp(正常)

51689

41.6%

13000

11%

MySql(正常)

11900

9.5%

13000

11%

SMB(正常)

13800

11.1%

13000

11%

Wordofwarcraft
(正常)

14185

11.4%

13000

11%

Miuref

14000

11.2%

13000

11%

Weibo(正常)

13000

10.4%

13000

11%

Shifu

2000

1.6%

13000

11%

Cridex

1700

1.3%

13000

11%

Neris

1800

1.4%

13000

11%

总计

124074

100%

117000

100%

编号

应用类别

平衡前

平衡后

数量

占比/%

数量

占比/%

normal(正常)

10003

7.2%

10000

10%

Web-BForce

1229

0.9%

10000

10%

DDOS

40932

29.4%

10000

10%

DOSGoldenEye

6817

4.9%

10000

10%

DOSHulk

12697

9.1%

10000

10%

FTP-Patator

3594

2.6%

10000

10%

PortScan

54000

38.8%

10000

10%

slowhttptest

3796

2.7%

10000

10%

SSH-Patator

2681

1.9%

10000

10%

DoSSlowloris

3505

2.5%

10000

10%

总计

136360

100%

100000

100%

数据集类型

Precision

Recall

原始数据

0.9594

0.9329

0.9408

CWGAN-GP平衡

0.9652

0.9777

0.9740

SMOTE平衡

0.9545

0.9641

0.9577

ROS平衡

0.9647

0.9740

0.9689

GAN平衡

0.9632

0.9420

0.9514

WGAN平衡

0.9635

0.9734

0.9679

数据集类型

Precision

Recall

原始数据

0.9571

0.9402

0.9456

CWGAN-GP平衡

0.9853

0.9833

0.9841

SMOTE平衡

0.9793

0.9782

0.9786

ROS平衡

0.9789

0.9768

0.9766

GAN平衡

0.9700

0.9685

0.9683

WGAN平衡

0.9781

0.9774

0.9773

基于CWGAN-GP平衡化的网络恶意流量识别方法

甘肃政法大学网络空间安全学院　兰州　730070

基金项目: 甘肃省高等学校产业支撑计划(2020C-29)

作者简介:
丁要军(1980 − )，男，博士，教授，主要从事网络安全及机器学习等方面的研究

通讯作者: 丁要军，E-mail：dingyj80@163.com

收稿日期: 2022-01-06

修回日期: 2022-02-24

网络出版日期: 2022-10-25

刊出日期: 2022-09-25

中图分类号: TN915.08; TP181

关键词:

全文HTML

在机器学习和数据挖掘领域，恶意流量不平衡是一种普遍存在的现象。目前对恶意流量不平衡数据分类的研究主要涉及两种方法^[1]：一是对分类算法进行新的设计或改进；二是在数据级别上进行操作，主要通过过采样、欠采样或混合采样来达到数据集的平衡。现有的过采样方法主要分为传统方法和基于生成对抗网络的方法。大多数传统的过采样方法都基于SMOTE技术^[2]，由于这些方法更关注局部数据信息，生成的数据不够真实；另一种是基于生成性对抗网络(generative adversarial networks, GAN)^[3]，它可以捕捉数据的真实分布并直接生成合成数据，用于无监督学习。随后，文献[4]提出了一种基于条件生成对抗网络(conditional generative adversarial networks, CGAN)的模型，该模型在GAN的基础上加入了条件信息生成特定的类别。然而，GAN与CGAN都会受到不稳定训练(梯度消失)和模式崩溃的影响。为解决这些问题，WGAN(Wasserstein generative adversarial networks)^[5]随即被提出，该模型使用EM距离(也称为Wasserstein)而不是JS散度来度量真实数据分布和生成数据分布之间的距离，从理论上解决了梯度消失的问题，可有效缓解模式崩溃问题。但CGAN与WGAN依然存在着训练只生成质量不高的样本或模型无法收敛。在使用GAN模型解决网络恶意数据分类问题中，文献[6]提出了GAN模型生成具备可执行性和攻击性的恶意网络流样本，但它只针对缓冲区溢出漏洞攻击进行了研究，模型的泛化性有待进一步研究。文献[7]提出了Attack-GAN模型，用于生成能够敝开入侵检测系统的数据包级别对抗网络流量。文献[8]提出将WGAN-GP与CGAN优势融合的CWGAN-GP(conditional Wasserstein generative adversarial network-gradient penalty)方法，该方法不仅生成更真实多样的数据，而且克服了模式崩溃和训练不稳定的问题。

本文将WGAN-GP与辅助条件信息相结合，作为一种新的过采样方法，为网络流量图片不平衡数据集中的少数类生成合成样本。

4. 结束语

本文提出了利用流量图片化结合CWGAN-GP来处理恶意流量识别领域的不平衡问题，此方法通过学习原始数据的真实分布来生成新的数据。

在两个不同的恶意流量不平衡数据集上，通过使用深度学习分类算法CNN对基于CWGAN-GP方法进行了评估。实验结果表明，CWGAN-GP在所有指标下均优于其他过采样方法，但需要更多的时间进行训练。在未来的研究中，将对CWGAN-GP进行更加深入的理论研究，加速其训练和收敛过程；并探索更加合理的生成数据评价指标。

参考文献 (12)

[1]	SUH S, LEE H, LUKOWICZ P, et al. CEGAN: Classification enhancement generative adversarial networks for unraveling data imbalance problems[J]. Neural Networks, 2021, 133: 69-86. doi: 10.1016/j.neunet.2020.10.004
[2]	SUN J, LANG J, FUJITA H, et al. Imbalanced enterprise credit evaluation with DTE-SBD: Decision tree ensemble based on SMOTE and bagging with differentiated sampling rates[J]. Information Sciences, 2018, 425: 76-91. doi: 10.1016/j.ins.2017.10.017
[3]	GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Proceedings of the 2014 Advances in Neural Information Processing Systems. New York: Curran Associates, 2014: 2672-2680.
[4]	DOUZAS G, BACAO F. Effective data generation for imbalanced learning using conditional generative adversarial networks[J]. Expert Systems with Applications, 2018, 91: 464-471. doi: 10.1016/j.eswa.2017.09.030
[5]	GULRAJANI I, AHMED F, ARJOVSKY M, et al. Improved training of wasserstein gans[C]//Proceedings of the 2017 Advances in Neural Information Processing Systems. New York: Curran Associates, 2017: 5767-5777.
[6]	潘一鸣, 林家骏. 基于生成对抗网络的恶意网络流生成及验证[J]. 华东理工大学学报(自然科学版), 2019, 45(2): 344-350. doi: 10.14135/j.cnki.1006-3080.20180313003 PAN Y M, LIN J J. Generation and verification of malicious network flow based on generative adversarial networks[J]. China Journal of East University of Science and Technology (Natural Science), 2019, 45(2): 344-350. doi: 10.14135/j.cnki.1006-3080.20180313003
[7]	CHENG Q, ZHOU S, SHEN Y, et al. Packet-Level adversarial network traffic crafting using sequence generative adversarial networks[EB/OL]. [2021-11-30]. https://arxiv.org/abs/2103.04794.
[8]	MING Z A, TONG L, RUI Z, et al. Conditional Wasserstein generative adversarial network-gradient penalty-based approach to alleviating imbalanced data classification[J]. Information Sciences, 2020, 512: 1009-1023. doi: 10.1016/j.ins.2019.10.014
[9]	WANG P, LI S, YE F, et al. PacketCGAN: Exploratory study of class imbalance for encrypted traffic classification using CGAN[C]//IEEE International Conference on Communications (ICC). [S.l.]: IEEE, 2020: 1-7.
[10]	王伟. 基于深度学习的网络流量分类及异常检测方法研究[D]. 合肥: 中国科学技术大学, 2018. WANG W. Deep learning for network traffic classification and anomaly detection[D]. Hefei: University of Science and Technology of China, 2018.
[11]	Intrusion detection evaluation dataset (CICIDS2017). [EB/OL]. [2020-11-05]. https://www.unb.ca/cic.
[12]	LECUN Y, BOTTOU L. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324. doi: 10.1109/5.726791

[1]	王永, 王淞立, 邓江洲. 基于生成对抗网络的评分可信推荐模型 . 电子科技大学学报, 2024, 53(2): 1-8. doi: 10.12178/1001-0548.2023116
[2]	张云春, 王旺旺, 李成杰, 廖梓琨, 封凡, 林英. 物联网中融合网络流量的恶意软件检测 . 电子科技大学学报, 2023, 52(4): 602-609. doi: 10.12178/1001-0548.2022146
[3]	陈丽, 许思扬, 刘芳, 冯奇, 刘承享, 徐福琛, 田淼, 刘光辉. 基于生成对抗网络的OFDM信号生成 . 电子科技大学学报, 2023, 52(6): 841-850. doi: 10.12178/1001-0548.2022253
[4]	李响, 严毅, 刘明辉, 刘明. 基于多条件对抗和梯度优化的生成对抗网络 . 电子科技大学学报, 2021, 50(5): 754-760. doi: 10.12178/1001-0548.2020415
[5]	呼一辰, 赵志丹, 蔡世民, 黄子罡, 荣智海, 周涛. 复杂系统流量波动规律研究综述 . 电子科技大学学报, 2017, 46(2): 449-457. doi: 10.3969/j.issn.1001-0548.2017.02.021
[6]	温怀玉, 霍伟东. 无线传感器网络流量重分配拥塞控制算法 . 电子科技大学学报, 2017, 46(2): 407-411. doi: 10.3969/j.issn.1001-0548.2017.02.015
[7]	邵国林, 陈兴蜀, 尹学渊, 叶晓鸣. 基于流量结构稳定性的服务器网络行为描述:建模与系统 . 电子科技大学学报, 2017, 46(1): 102-108. doi: 10.3969/j.issn.1001-0548.2017.01.016
[8]	陶晓玲, 韦毅, 王勇. 一种基于本体的并行网络流量分类方法 . 电子科技大学学报, 2016, 45(3): 417-422.
[9]	陶晓玲, 韦毅, 王勇. 一种基于本体的并行网络流量分类方法 . 电子科技大学学报, 2016, 45(3): 417-422. doi: 10.3969/j.issn.1001-0548.2016.02.018
[10]	段思睿, 刘元安, 胡鹤飞, 李虎. LEO卫星网络中基于分布式路由算法的流量均衡策略 . 电子科技大学学报, 2014, 43(3): 375-380. doi: 10.3969/j.issn.1001-0548.2014.03.010
[11]	柏骏, 夏靖波, 鹿传国, 李明辉, 任高明. 基于RVM的网络流量分类研究 . 电子科技大学学报, 2014, 43(2): 241-246. doi: 10.3969/j.issn.1001-0548.2014.02.016
[12]	邵小强, 马宪民. 基于混沌的煤矿监测网络流量异变的预测 . 电子科技大学学报, 2012, 41(3): 424-428. doi: 10.3969/j.issn.1001-0548.2012.03.020
[13]	欧鹏, 李志蜀, 胡建, 林珣. 利用Betweenness Centrality计算网络流量矩阵的新算法 . 电子科技大学学报, 2012, 41(1): 152-157. doi: 10.3969/j.issn.1001-0548.2012.01.029
[14]	谭骏, 陈兴蜀, 杜敏, 朱锴. 基于自适应BP神经网络的网络流量识别算法 . 电子科技大学学报, 2012, 41(4): 580-585. doi: 10.3969/j.issn.1001-0548.2012.04.020
[15]	刘勇, 秦志光. ISP感知的BitTorrent流量优化 . 电子科技大学学报, 2011, 40(4): 582-586.
[16]	任立勇, 雷明, 张磊. P2P应用层数据流量优化 . 电子科技大学学报, 2011, 40(1): 111-115. doi: 10.3969/j.issn.1001-0548.2011.01.021
[17]	蒋定德, 胡光岷, 倪海转. IP骨干网络流量矩阵估计算法研究 . 电子科技大学学报, 2010, 39(3): 420-424. doi: 10.3969/j.issn.1001-0548.2010.03.021
[18]	杨丹, 胡光岷, 李宗林, 姚兴苗. 全局的多流量相关异常检测算法 . 电子科技大学学报, 2008, 37(6): 823-827.
[19]	陆庆, 周世杰, 秦志光, 吴春江. 对等网络流量检测技术 . 电子科技大学学报, 2007, 36(6): 1333-1337.
[20]	张岗亭, 姜晓兵, 王书振. 网络最大流Pareto扩充研究 . 电子科技大学学报, 2006, 35(1): 89-92.

留言板