留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于CWGAN-GP平衡化的网络恶意流量识别方法

丁要军 王安宙

丁要军, 王安宙. 基于CWGAN-GP平衡化的网络恶意流量识别方法[J]. 电子科技大学学报, 2022, 51(5): 760-765. doi: 10.12178/1001-0548.2022011
引用本文: 丁要军, 王安宙. 基于CWGAN-GP平衡化的网络恶意流量识别方法[J]. 电子科技大学学报, 2022, 51(5): 760-765. doi: 10.12178/1001-0548.2022011
DING Yaojun, WANG Anzhou. Network Malicious Traffic Identification Method Based on CWGAN-GP Category Balancing[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(5): 760-765. doi: 10.12178/1001-0548.2022011
Citation: DING Yaojun, WANG Anzhou. Network Malicious Traffic Identification Method Based on CWGAN-GP Category Balancing[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(5): 760-765. doi: 10.12178/1001-0548.2022011

基于CWGAN-GP平衡化的网络恶意流量识别方法

doi: 10.12178/1001-0548.2022011
基金项目: 甘肃省高等学校产业支撑计划(2020C-29)
详细信息
    作者简介:

    丁要军(1980 − ),男,博士,教授,主要从事网络安全及机器学习等方面的研究

    通讯作者: 丁要军,E-mail:dingyj80@163.com
  • 中图分类号: TN915.08; TP181

Network Malicious Traffic Identification Method Based on CWGAN-GP Category Balancing

  • 摘要: 在网络恶意流量识别任务中,存在恶意流量样本数量与正常流量样本比例不平衡问题,从而导致训练出的机器学习模型泛化能力差、识别准确率低。为此,在网络流量图片化的基础上提出一种利用具有梯度惩罚项的条件Wasserstein生成对抗网络(CWGAN-GP)对少量数据类进行平衡的分类方法。该方法首先借助网络流量图片化方法将原始流量PCAP数据按照流为单位进行切分、填充、映射到灰度图片中;然后使用CWGAN-GP方法实现数据集的平衡;最后,在公开数据集USTC-TFC2016和CICIDS2017上使用CNN模型对不平衡数据集和平衡后的数据集进行分类测试。实验结果表明,使用CWGAN-GP的平衡方法在精确度、召回率、F1这3个指标上均优于随机过采样、SMOTE、GAN以及WGAN平衡方法。
  • 图  1  基于CWGAN-GP数据平衡方法

    图  2  生成器、鉴别器损失变化

    图  3  生成流量图与真实流量图对比

    图  4  CIC-IDS2017分类结果对比

    图  5  USTC-TFC2016分类结果对比

    表  1  USTC-TFC2016数据集平衡前后分布

    编号应用类别平衡前平衡后
    数量占比/%数量占比/%
    1Ftp(正常)5168941.6%1300011%
    2MySql(正常)119009.5%1300011%
    3SMB(正常)1380011.1%1300011%
    4Wordofwarcraft
    (正常)
    1418511.4%1300011%
    5Miuref1400011.2%1300011%
    6Weibo(正常)1300010.4%1300011%
    7Shifu20001.6%1300011%
    8Cridex17001.3%1300011%
    9Neris18001.4%1300011%
    总计124074100%117000100%
    下载: 导出CSV

    表  2  CIC-IDS2017数据集平衡前后分布

    编号应用类别平衡前平衡后
    数量占比/%数量占比/%
    1normal(正常)100037.2%1000010%
    2Web-BForce12290.9%1000010%
    3DDOS4093229.4%1000010%
    4DOSGoldenEye68174.9%1000010%
    5DOSHulk126979.1%1000010%
    6FTP-Patator35942.6%1000010%
    7PortScan5400038.8%1000010%
    8slowhttptest37962.7%1000010%
    9SSH-Patator26811.9%1000010%
    10DoSSlowloris35052.5%1000010%
    总计136360100%100000100%
    下载: 导出CSV

    表  3  CIC-IDS2017分类结果均值统计

    数据集类型PrecisionRecallF1
    原始数据0.95940.93290.9408
    CWGAN-GP平衡0.96520.97770.9740
    SMOTE平衡0.95450.96410.9577
    ROS平衡0.96470.97400.9689
    GAN平衡0.96320.94200.9514
    WGAN平衡0.96350.97340.9679
    下载: 导出CSV

    表  4  USTC-TFC2016分类结果均值统计

    数据集类型PrecisionRecallF1
    原始数据0.95710.94020.9456
    CWGAN-GP平衡0.98530.98330.9841
    SMOTE平衡0.97930.97820.9786
    ROS平衡0.97890.97680.9766
    GAN平衡0.97000.96850.9683
    WGAN平衡0.97810.97740.9773
    下载: 导出CSV
  • [1] SUH S, LEE H, LUKOWICZ P, et al. CEGAN: Classification enhancement generative adversarial networks for unraveling data imbalance problems[J]. Neural Networks, 2021, 133: 69-86. doi:  10.1016/j.neunet.2020.10.004
    [2] SUN J, LANG J, FUJITA H, et al. Imbalanced enterprise credit evaluation with DTE-SBD: Decision tree ensemble based on SMOTE and bagging with differentiated sampling rates[J]. Information Sciences, 2018, 425: 76-91. doi:  10.1016/j.ins.2017.10.017
    [3] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Proceedings of the 2014 Advances in Neural Information Processing Systems. New York: Curran Associates, 2014: 2672-2680.
    [4] DOUZAS G, BACAO F. Effective data generation for imbalanced learning using conditional generative adversarial networks[J]. Expert Systems with Applications, 2018, 91: 464-471. doi:  10.1016/j.eswa.2017.09.030
    [5] GULRAJANI I, AHMED F, ARJOVSKY M, et al. Improved training of wasserstein gans[C]//Proceedings of the 2017 Advances in Neural Information Processing Systems. New York: Curran Associates, 2017: 5767-5777.
    [6] 潘一鸣, 林家骏. 基于生成对抗网络的恶意网络流生成及验证[J]. 华东理工大学学报(自然科学版), 2019, 45(2): 344-350. doi:  10.14135/j.cnki.1006-3080.20180313003

    PAN Y M, LIN J J. Generation and verification of malicious network flow based on generative adversarial networks[J]. China Journal of East University of Science and Technology (Natural Science), 2019, 45(2): 344-350. doi:  10.14135/j.cnki.1006-3080.20180313003
    [7] CHENG Q, ZHOU S, SHEN Y, et al. Packet-Level adversarial network traffic crafting using sequence generative adversarial networks[EB/OL]. [2021-11-30]. https://arxiv.org/abs/2103.04794.
    [8] MING Z A, TONG L, RUI Z, et al. Conditional Wasserstein generative adversarial network-gradient penalty-based approach to alleviating imbalanced data classification[J]. Information Sciences, 2020, 512: 1009-1023. doi:  10.1016/j.ins.2019.10.014
    [9] WANG P, LI S, YE F, et al. PacketCGAN: Exploratory study of class imbalance for encrypted traffic classification using CGAN[C]//IEEE International Conference on Communications (ICC). [S.l.]: IEEE, 2020: 1-7.
    [10] 王伟. 基于深度学习的网络流量分类及异常检测方法研究[D]. 合肥: 中国科学技术大学, 2018.

    WANG W. Deep learning for network traffic classification and anomaly detection[D]. Hefei: University of Science and Technology of China, 2018.
    [11] Intrusion detection evaluation dataset (CICIDS2017). [EB/OL]. [2020-11-05]. https://www.unb.ca/cic.
    [12] LECUN Y, BOTTOU L. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324. doi:  10.1109/5.726791
  • [1] 王永, 王淞立, 邓江洲.  基于生成对抗网络的评分可信推荐模型 . 电子科技大学学报, 2024, 53(2): 1-8. doi: 10.12178/1001-0548.2023116
    [2] 张云春, 王旺旺, 李成杰, 廖梓琨, 封凡, 林英.  物联网中融合网络流量的恶意软件检测 . 电子科技大学学报, 2023, 52(4): 602-609. doi: 10.12178/1001-0548.2022146
    [3] 陈丽, 许思扬, 刘芳, 冯奇, 刘承享, 徐福琛, 田淼, 刘光辉.  基于生成对抗网络的OFDM信号生成 . 电子科技大学学报, 2023, 52(6): 841-850. doi: 10.12178/1001-0548.2022253
    [4] 李响, 严毅, 刘明辉, 刘明.  基于多条件对抗和梯度优化的生成对抗网络 . 电子科技大学学报, 2021, 50(5): 754-760. doi: 10.12178/1001-0548.2020415
    [5] 呼一辰, 赵志丹, 蔡世民, 黄子罡, 荣智海, 周涛.  复杂系统流量波动规律研究综述 . 电子科技大学学报, 2017, 46(2): 449-457. doi: 10.3969/j.issn.1001-0548.2017.02.021
    [6] 温怀玉, 霍伟东.  无线传感器网络流量重分配拥塞控制算法 . 电子科技大学学报, 2017, 46(2): 407-411. doi: 10.3969/j.issn.1001-0548.2017.02.015
    [7] 邵国林, 陈兴蜀, 尹学渊, 叶晓鸣.  基于流量结构稳定性的服务器网络行为描述:建模与系统 . 电子科技大学学报, 2017, 46(1): 102-108. doi: 10.3969/j.issn.1001-0548.2017.01.016
    [8] 陶晓玲, 韦毅, 王勇.  一种基于本体的并行网络流量分类方法 . 电子科技大学学报, 2016, 45(3): 417-422.
    [9] 陶晓玲, 韦毅, 王勇.  一种基于本体的并行网络流量分类方法 . 电子科技大学学报, 2016, 45(3): 417-422. doi: 10.3969/j.issn.1001-0548.2016.02.018
    [10] 段思睿, 刘元安, 胡鹤飞, 李虎.  LEO卫星网络中基于分布式路由算法的流量均衡策略 . 电子科技大学学报, 2014, 43(3): 375-380. doi: 10.3969/j.issn.1001-0548.2014.03.010
    [11] 柏骏, 夏靖波, 鹿传国, 李明辉, 任高明.  基于RVM的网络流量分类研究 . 电子科技大学学报, 2014, 43(2): 241-246. doi: 10.3969/j.issn.1001-0548.2014.02.016
    [12] 邵小强, 马宪民.  基于混沌的煤矿监测网络流量异变的预测 . 电子科技大学学报, 2012, 41(3): 424-428. doi: 10.3969/j.issn.1001-0548.2012.03.020
    [13] 欧鹏, 李志蜀, 胡建, 林珣.  利用Betweenness Centrality计算网络流量矩阵的新算法 . 电子科技大学学报, 2012, 41(1): 152-157. doi: 10.3969/j.issn.1001-0548.2012.01.029
    [14] 谭骏, 陈兴蜀, 杜敏, 朱锴.  基于自适应BP神经网络的网络流量识别算法 . 电子科技大学学报, 2012, 41(4): 580-585. doi: 10.3969/j.issn.1001-0548.2012.04.020
    [15] 刘勇, 秦志光.  ISP感知的BitTorrent流量优化 . 电子科技大学学报, 2011, 40(4): 582-586.
    [16] 任立勇, 雷明, 张磊.  P2P应用层数据流量优化 . 电子科技大学学报, 2011, 40(1): 111-115. doi: 10.3969/j.issn.1001-0548.2011.01.021
    [17] 蒋定德, 胡光岷, 倪海转.  IP骨干网络流量矩阵估计算法研究 . 电子科技大学学报, 2010, 39(3): 420-424. doi: 10.3969/j.issn.1001-0548.2010.03.021
    [18] 杨丹, 胡光岷, 李宗林, 姚兴苗.  全局的多流量相关异常检测算法 . 电子科技大学学报, 2008, 37(6): 823-827.
    [19] 陆庆, 周世杰, 秦志光, 吴春江.  对等网络流量检测技术 . 电子科技大学学报, 2007, 36(6): 1333-1337.
    [20] 张岗亭, 姜晓兵, 王书振.  网络最大流Pareto扩充研究 . 电子科技大学学报, 2006, 35(1): 89-92.
  • 加载中
图(5) / 表(4)
计量
  • 文章访问数:  4575
  • HTML全文浏览量:  2005
  • PDF下载量:  104
  • 被引次数: 0
出版历程
  • 收稿日期:  2022-01-06
  • 修回日期:  2022-02-24
  • 网络出版日期:  2022-10-25
  • 刊出日期:  2022-09-25

基于CWGAN-GP平衡化的网络恶意流量识别方法

doi: 10.12178/1001-0548.2022011
    基金项目:  甘肃省高等学校产业支撑计划(2020C-29)
    作者简介:

    丁要军(1980 − ),男,博士,教授,主要从事网络安全及机器学习等方面的研究

    通讯作者: 丁要军,E-mail:dingyj80@163.com
  • 中图分类号: TN915.08; TP181

摘要: 在网络恶意流量识别任务中,存在恶意流量样本数量与正常流量样本比例不平衡问题,从而导致训练出的机器学习模型泛化能力差、识别准确率低。为此,在网络流量图片化的基础上提出一种利用具有梯度惩罚项的条件Wasserstein生成对抗网络(CWGAN-GP)对少量数据类进行平衡的分类方法。该方法首先借助网络流量图片化方法将原始流量PCAP数据按照流为单位进行切分、填充、映射到灰度图片中;然后使用CWGAN-GP方法实现数据集的平衡;最后,在公开数据集USTC-TFC2016和CICIDS2017上使用CNN模型对不平衡数据集和平衡后的数据集进行分类测试。实验结果表明,使用CWGAN-GP的平衡方法在精确度、召回率、F1这3个指标上均优于随机过采样、SMOTE、GAN以及WGAN平衡方法。

English Abstract

丁要军, 王安宙. 基于CWGAN-GP平衡化的网络恶意流量识别方法[J]. 电子科技大学学报, 2022, 51(5): 760-765. doi: 10.12178/1001-0548.2022011
引用本文: 丁要军, 王安宙. 基于CWGAN-GP平衡化的网络恶意流量识别方法[J]. 电子科技大学学报, 2022, 51(5): 760-765. doi: 10.12178/1001-0548.2022011
DING Yaojun, WANG Anzhou. Network Malicious Traffic Identification Method Based on CWGAN-GP Category Balancing[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(5): 760-765. doi: 10.12178/1001-0548.2022011
Citation: DING Yaojun, WANG Anzhou. Network Malicious Traffic Identification Method Based on CWGAN-GP Category Balancing[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(5): 760-765. doi: 10.12178/1001-0548.2022011
  • 在机器学习和数据挖掘领域,恶意流量不平衡是一种普遍存在的现象。目前对恶意流量不平衡数据分类的研究主要涉及两种方法[1]:一是对分类算法进行新的设计或改进;二是在数据级别上进行操作,主要通过过采样、欠采样或混合采样来达到数据集的平衡。现有的过采样方法主要分为传统方法和基于生成对抗网络的方法。大多数传统的过采样方法都基于SMOTE技术[2],由于这些方法更关注局部数据信息,生成的数据不够真实;另一种是基于生成性对抗网络(generative adversarial networks, GAN)[3],它可以捕捉数据的真实分布并直接生成合成数据,用于无监督学习。随后,文献[4]提出了一种基于条件生成对抗网络(conditional generative adversarial networks, CGAN)的模型,该模型在GAN的基础上加入了条件信息生成特定的类别。然而,GAN与CGAN都会受到不稳定训练(梯度消失)和模式崩溃的影响。为解决这些问题,WGAN(Wasserstein generative adversarial networks)[5]随即被提出,该模型使用EM距离(也称为Wasserstein)而不是JS散度来度量真实数据分布和生成数据分布之间的距离,从理论上解决了梯度消失的问题,可有效缓解模式崩溃问题。但CGAN与WGAN依然存在着训练只生成质量不高的样本或模型无法收敛。在使用GAN模型解决网络恶意数据分类问题中,文献[6]提出了GAN模型生成具备可执行性和攻击性的恶意网络流样本,但它只针对缓冲区溢出漏洞攻击进行了研究,模型的泛化性有待进一步研究。文献[7]提出了Attack-GAN模型,用于生成能够敝开入侵检测系统的数据包级别对抗网络流量。文献[8]提出将WGAN-GP与CGAN优势融合的CWGAN-GP(conditional Wasserstein generative adversarial network-gradient penalty)方法,该方法不仅生成更真实多样的数据,而且克服了模式崩溃和训练不稳定的问题。

    本文将WGAN-GP与辅助条件信息相结合,作为一种新的过采样方法,为网络流量图片不平衡数据集中的少数类生成合成样本。

    • 与其他GAN模型及其衍生版本类似,CWGAN-GP也是由鉴别器(discriminator)和生成器(generator)组成,它们以相反的方式训练,通过博弈使得生成的样本与真实数据无法区分。CGAN模型在原始GAN模型上添加辅助条件信息,WGAN-GP模型以同样的方式扩展到CWGAN-GP。CWGAN-GP采用EM距离来评估真实样本和模拟样本之间的分布,且加入了条件信息。Wasserstein距离为:

      $$ {\rm{W}}({p_{{\rm{data}}}},{p_{\rm{g}}}) = \mathop {\inf }\limits_{\gamma \in \prod ({p_{{\rm{data}}}},{p_{\rm{g}}})} {{\rm{E}}_{(x,y)\sim \gamma }}[||x - y||] $$ (1)

      式中,PdataPg是真实数据分布和生成数据分布;$\prod ({p_{{\rm{data}}}},{p_{\rm{g}}})$是所有边缘分布为pdatapg的联合概率分布。

      CWGAN-GP是通过惩罚鉴别器相对于其输入梯度的范数来替代WGAN削减权重,有效克服了WGAN模型难以收敛的问题。

      为限制生成器生成方向,使生成器能够生成特定类别数据,与CGAN类似,CWGAN-GP模型向生成器和鉴别器添加了附加信息yy可以是类别标签或任何其他类型的辅助信息。本文中条件信息是类别标签。在鉴别器中,将PdataPgy以联合隐藏表达的形式结合;在生成器中,以相同的形式将条件y与生成数据分布pg连接。函数形式为:

      $$ \begin{split} & \qquad\quad \mathop {{\text{min}}}\limits_G \mathop {{\text{max}}}\limits_D {{V(D,G) = }}{{\text{E}}_{x\sim {p_{{\rm{data}}}}(x)}}[D(x{{|y}})] - \\ & {{\rm{E}}_{{{\tilde {\rm{g}}}} \sim {p_{\text{g}}}{\text{(g)}}}}[D(\tilde g{{|y}})] - \lambda {{\rm{E}}_{\hat x\sim {{\rm{P}}_{\hat x}}}}[{(||{\nabla _{\hat x}}D(\hat {{x}}{{|y}})|{|_2} - 1)^2}] \end{split} $$ (2)

      其中参数与WGAN-GP相同,只是增加了附加条件y。CWGAN-GP的优化函数分别为:

      $$ \begin{split} & {{L}}({{D}}){\text{ = }} - {{\text{E}}_{x\sim {p_{{\rm{data}}}}(x)}}[D(x{\text{|y}})] + {{\rm{E}}_{{{\tilde {\rm{g}}}}\sim {p_{\text{g}}}{\text{(g)}}}}[D(\tilde g{\text{|y}})] + \\ & \qquad\quad \lambda {{\rm{E}}_{\hat x\sim {{\rm{P}}_{\hat x}}}}[{(||{\nabla _{\hat x}}D(\hat {\rm{x}}{\text{|y}})|{|_2} - 1)^2}] \end{split} $$ (3)
      $$ {{L}}({{G}}){\text{ = }} - {{\rm{E}}_{{{\tilde {\rm{g}}}}\sim {p_{\text{g}}}{\text{(g)}}}}[D(\tilde g{\text{|y}})] $$ (4)

      CWGAN-GP的目标是使L最小化[9],从而实现生成数据与真实数据之间的分布距离更小。与传统的过采样方法相比,CWGAN-GP直接生成数据,而不只是关注局部信息。

    • 由于深度学习模型对输入数据格式有具体要求,本节介绍数据集的预处理方法,将原始流量数据进行图片化处理,在此基础上对数据扩充平衡。

    • 基于文献[10]对数据处理的经验,本节的网络流量图片化主要是使用工具集USTC-TK2016将原始流量数据(PCAP或PCAPNG格式)处理成IDX数据集格式(更好的迁移到多数模型)。

      1) 流量切分:按照流量表示形式将原始PCAP文件按照数据流形式切分为多个PCAP文件,本数据流是具有相同五元组信息的数据包的时间排序集合。

      2) 图片生成:将处理过的文件按照784字节进行统一长度处理,即保留文件前784字节数据,舍弃文件785字节以后的所有信息,如果长度少于784字节,则在文件后面补充0x00;统一长度后的文件按照二进制形式转换为灰度图片,即一个字节对应灰度像素值,如0x00对应黑色,0xff对应白色,输出格式为PNG。

      3) 数据集格式转换:将生成的多类别图像转换为包含图像像素信息和统计信息的IDX格式,方便后续数据扩展和分类模型输入。

      完成以上处理操作后,每张图片都是28*28的灰度图片,这些图片类别之间有良好的区分度,保证了深度学习模型分类有很好的效果。

    • 将预处理完成的数据放入CWGAN-GP图像生成器中,利用CWGAN-GP能稳定地生成多样样本的特点产生新的少数类别流量图片。生成数据是具有真实图像特征且多样性较强的扩充数据,利用这些数据对原始不平衡数据集进行数据扩充,不仅能有效平衡数据集,还能防止像传统上采样技术扩充数据集所造成的数据样本单一、训练模型容易过拟合的问题。CWGAN-GP网络的鉴别器损失是与生成图片质量高度相关的参数,在生成阶段加入一个判别函数,在鉴别器、生成器损失小于某阈值时输出生成图像,保证生成的图像与原始真实图像的高度相关性。平衡方法如图1所示。

      图  1  基于CWGAN-GP数据平衡方法

      1) 将需要扩充的少数类真实流量图制作成IDX数据集格式,输入进CWGAN-GP模型中进行训练。

      2) 在生成器损失小于C1且鉴别器损失小于C2时,将生成器骗过鉴别器的图像按类别输出。本文的C1C2绝对值大小分别为1.0和0.2,在大量训练情况下记录生成器、鉴别器损失大小变化,如图2所示,C1C2是在考虑时间效率下相对收敛的损失值大小。

      3) 将生成的流量图片与原始流量图片进行合,完成原始数据集的平衡。

      图  2  生成器、鉴别器损失变化

      平衡完成的数据是和原始流量图片高度相关且具有多样性,如图3所示,可以看出利用此方法可以生成人眼均可明确分辨的相关图像,且具有一定的多样性。生成数据相关程度在实验结果中得到验证。

      图  3  生成流量图与真实流量图对比

    • 实验使用的是公共数据集USTC-TFC2016和CIC-IDS2017[11]中的部分数据,数据集由原始PCAP文件组成。从USTC-TFC2016中选择了9类应用程序,其中包括6类正常应用流量和3类异常应用流量;从CIC-IDS2017选择10类应用程序,9类异常应用流量和1类正常流量,数据集均有较大的不平衡。使用不同方法使数据集实现平衡,将数据样本随机划分成90%的训练集和10%的测试集。数据集平衡前后分布如表1表2所示。为保证实验有效性,数据集的测试集部分均为真实数据,生成数据只对训练集部分进行平衡。

      表 1  USTC-TFC2016数据集平衡前后分布

      编号应用类别平衡前平衡后
      数量占比/%数量占比/%
      1Ftp(正常)5168941.6%1300011%
      2MySql(正常)119009.5%1300011%
      3SMB(正常)1380011.1%1300011%
      4Wordofwarcraft
      (正常)
      1418511.4%1300011%
      5Miuref1400011.2%1300011%
      6Weibo(正常)1300010.4%1300011%
      7Shifu20001.6%1300011%
      8Cridex17001.3%1300011%
      9Neris18001.4%1300011%
      总计124074100%117000100%

      表 2  CIC-IDS2017数据集平衡前后分布

      编号应用类别平衡前平衡后
      数量占比/%数量占比/%
      1normal(正常)100037.2%1000010%
      2Web-BForce12290.9%1000010%
      3DDOS4093229.4%1000010%
      4DOSGoldenEye68174.9%1000010%
      5DOSHulk126979.1%1000010%
      6FTP-Patator35942.6%1000010%
      7PortScan5400038.8%1000010%
      8slowhttptest37962.7%1000010%
      9SSH-Patator26811.9%1000010%
      10DoSSlowloris35052.5%1000010%
      总计136360100%100000100%
    • 对于相同的超参数,设置均保持相同;对于不同的超参数,单独设置。GAN、WGAN和CWGAN-GP均为4层神经网络,噪声空间的维数设置为100,batch_size设置为64。WGAN和CWGAN-GP将αβ1、和β2分别设置为0.002、0.5和0.999;clip_value均为0.01;critic设置为5,即当生成器训练1个batch时,判别器要接着训练5次;梯度惩罚系数λ在CWGAN-GP中设置为10,训练批次均为在满足2.2节条件下且生成数据数量足够时停止;SMOTE方法的k_neighbors为5。

      本文使用的分类模型是经典LeNet-5[12]的CNN结构,CNN模型使用交叉熵损失,batch_size设置为50,训练轮次均为2 000。

    • 本文使用评价网络流量分类器的性能指标有精确度(precision)、召回率(recall)和F1-score。

    • 实验在一台配置了Intel(R)Core(TM) i7-7700HQ CPU @2.80 GHz处理器、16 GB内存、GPU(GeForce GTX1050)、Win10系统的笔记本电脑上运行。使用TensorFlow 1.15.0+Keras 2.3.1深度学习平台实现分类操作,基于GAN及其衍生版本的数据生成方法使用torch1.3.1+GPU实现。

      使用CNN模型对5种平衡方法和原始数据进行实验测试。只对训练集进行处理,测试集全部为原始数据。随机选取10%的样本集作为测试集,并对剩余90%的数据集进行平衡化作为训练集。为消除随机划分数据集对结果的影响,将实验重复5次取平均值作为最终结果,结果如图4图5所示。

      图  4  CIC-IDS2017分类结果对比

      图  5  USTC-TFC2016分类结果对比

      经过对比得到在相同训练参数下,使用CWGAN-GP方法进行流量图片平衡后的数据集相较于其他分类方法识别效果提升明显,且在多数类别上识别均值高于使用其他平衡方法。CWGAN-GP方法的最终效果优于其他方法,F1值在IDS2017上相较于原始数据提高近3%,较于SMOTE方法提高近2%;在TFC2016上较原始提高近4%,较SMOTE提高近1.3%;在两个数据集上均有识别率较低的流量类别,这些流量类别具有一定隐蔽性,不易被识别出来,但本方法对识别率有较大提高,验证了本方法具有一定的鲁棒性,且不易出现模式崩溃和收敛困难的问题。由于相较于WGAN-GP添加了辅助信息,在生成效率上也有很大提高。均值结果统计如表3表4所示。

      表 3  CIC-IDS2017分类结果均值统计

      数据集类型PrecisionRecallF1
      原始数据0.95940.93290.9408
      CWGAN-GP平衡0.96520.97770.9740
      SMOTE平衡0.95450.96410.9577
      ROS平衡0.96470.97400.9689
      GAN平衡0.96320.94200.9514
      WGAN平衡0.96350.97340.9679

      表 4  USTC-TFC2016分类结果均值统计

      数据集类型PrecisionRecallF1
      原始数据0.95710.94020.9456
      CWGAN-GP平衡0.98530.98330.9841
      SMOTE平衡0.97930.97820.9786
      ROS平衡0.97890.97680.9766
      GAN平衡0.97000.96850.9683
      WGAN平衡0.97810.97740.9773
    • 本文提出了利用流量图片化结合CWGAN-GP来处理恶意流量识别领域的不平衡问题,此方法通过学习原始数据的真实分布来生成新的数据。

      在两个不同的恶意流量不平衡数据集上,通过使用深度学习分类算法CNN对基于CWGAN-GP方法进行了评估。实验结果表明,CWGAN-GP在所有指标下均优于其他过采样方法,但需要更多的时间进行训练。在未来的研究中,将对CWGAN-GP进行更加深入的理论研究,加速其训练和收敛过程;并探索更加合理的生成数据评价指标。

参考文献 (12)

目录

    /

    返回文章
    返回