一种基于本体的并行网络流量分类方法

陶晓玲; 韦毅; 王勇

doi:10.3969/j.issn.1001-0548.2016.02.018

一种基于本体的并行网络流量分类方法

doi: 10.3969/j.issn.1001-0548.2016.02.018

陶晓玲^1,2,
韦毅²,
王勇^2,3

1.
桂林电子科技大学认知无线电与信息处理省部共建教育部重点实验室广西桂林 541004
2.
桂林电子科技大学广西高校云计算与复杂系统重点实验室广西桂林 541004
3.
桂林电子科技大学广西可信软件重点实验室广西桂林 541004

基金项目:

国家自然科学基金 61163058,61363006

广西可信软件重点实验室开放课题 KX201306

广西高校云计算与复杂系统重点实验室开放课题 14104

详细信息

作者简介:
陶晓玲(1977-),女,副研究员,主要从事云计算、网络安全及机器学习方面的研究

中图分类号: TP393

An Ontology Based Parallel Network Traffic Classification Method

1.
Key Laboratory of Cognitive Radio and Information Processing, Guilin University of Electronic Technology Guilin Guangxi 541004
2.
Guangxi Colleges and Universities Key Laboratory of Cloud Computing and Complex Systems, Guilin University of Electronic Technology Guilin Guangxi 541004
3.
Guangxi Key Laboratory of Trusted Software, Guilin University of Electronic Technology Guilin Guangxi 541004

摘要: 海量网络流量数据的处理与单一节点的计算能力瓶颈这一矛盾导致数据分类效率低,无法满足现实需求。为解决这一问题,结合本体与MapReduce技术各自在海量异构数据描述与处理方面的优势,提出一种基于本体的并行网络流量分类方法。该方法基于MapReduce并行计算架构,根据网络流量本体结构,对网络流量本体并行化构建;通过并行知识推理完成基于流量统计特征的网络流量分类。实验结果表明,集群环境下基于MapReduce的网络流量本体构建效率明显高于单机环境,而且适当增加计算节点使得加速比线性提升;并行知识推理的分类方法能够有效地提高大规模网络流量的分类效率。
- 知识推理 /
- MapReduce /
- 网络流量分类 /
- 本体 /
- 并行化
Abstract: The contradiction between the processing of mass network traffic data and the computing bottleneck of a single node leads to low efficiency of data classification. To address this challenge, we propose an ontology based parallel network traffic classification method by integrating the advantage of ontology and MapReduce in dealing with the description and processing of mass heterogeneous data. Our approach makes use of MapReduce, a framework of parallel computing. Firstly, it uses the ontology to describe and manage network traffic data, and constructs the layered and parallel network traffic ontology. Then it builds the classification model by employing the decision tree algorithm, by which the inference rule set is generated. Network traffic classification based on traffic statistical features is completed by utilizing parallel knowledge reasoning. Implementation results show that data classification efficiency of the proposed approach in group environment is higher than in stand-alone scenario. The speedup ratio increases linearly when increasing the quantity of compute nodes. In addition, the new method is able to improve the classification efficiency of large-scale network traffic significantly.
- knowledge reasoning /
- MapReduce /
- network traffic classification /
- ontology /
- parallelization
图 1 基于MapReduce的网络流量本体构建模型

下载: 全尺寸图片幻灯片

图 2 基于知识推理的并行网络流量分类框架

下载: 全尺寸图片幻灯片

图 3 单机环境和集群环境下网络流量本体的构建时间对比

下载: 全尺寸图片幻灯片

图 4 加速比曲线

下载: 全尺寸图片幻灯片

图 5 单机环境和集群环境下网络流量分类时间对比

下载: 全尺寸图片幻灯片

图 6 加速比曲线

下载: 全尺寸图片幻灯片

[1]	WANG Yu, XIANG Yang, ZHANG Jun, et al. Internet traffic classification using constrained clustering[J]. IEEE Transactions on Parallel and Distributed Systems, 2014, 25(11):2932-2943.
[2]	CARELA-ESPAÑOL V, BARLET-ROS P, MULA-VALLS O, et al. An autonomic traffic classification system for network operation and management[J]. Journal of Network and Systems Management, 2015, 23(3):401-419.
[3]	刘凯鹏, 方滨兴.基于社会性标注的本体学习方法[J]. 计算机学报, 2010, 33(10):1823-1834. LIU Kai-peng, FANG Bin-xing. Ontology induction based on social annotations[J]. Chinese Journal of Computers, 2010, 33(10):1823-1834.
[4]	陶晓玲, 韦毅, 孔德艳, 等. 基于本体的网络流量分类方法[J]. 计算机工程与设计, 2016, 37(1):31-36. TAO Xiao-ling, WEI Yi, KONG De-yan, et al. Network traffic classification method based on ontology[J]. Computer Engineering and Design, 2016, 37(1):31-36.
[5]	HAUG P J, FERRARO J P, HOLMEN J, et al. An ontology-driven, diagnostic modeling system[J]. Journal of the American Medical Informatics Association, 2013, 20(e1):e102-e110.
[6]	OELLRICH A, WALLS R L, CANNON E K S, et al. An ontology approach to comparative phenomics in plants[J]. Plant Methods, 2015, 11(1):10.
[7]	AZEVEDO C L B, IACOB M E, ALMEIDA J P A, et al. Modeling resources and capabilities in enterprise architecture:a well-founded ontology-based proposal for archimate[J]. Information Systems, 2015, 54(12):235-262.
[8]	EBRAHIMIPOUR V, YACOUT S. Ontology-based schema to support maintenance knowledge representation with a case study of a pneumatic valve[J]. IEEE Transactions on Systems, Man, and Cybernetics:Systems, 2015, 45(4):702-712.
[9]	Gene Ontology Consortium. Gene ontology annotations and resources[J]. Nucleic Acids Research, 2013, 41(D1):D530-D535.
[10]	ALMENDROS-JIMENEZ J M, DOMENE L, PIEDRAFERNANDEZ J A. A framework for ocean satellite image classification based on ontologies[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2013, 6(2):1048-1063.
[11]	ZHANG Xiao-wei, HU Bin, MA Xu, et al. Ontology driven decision support for the diagnosis of mild cognitive impairment[J]. Computer Methods and Programs in Biomedicine, 2013, 113(3):781-791.
[12]	PIETRZYK M, JANOWSKI L, URVOY-KELLER G, Toward systematic methods comparison in traffic classification[C]//Wireless Communications and Mobile Computing Conference(IWCMC), 20117th International. Istanbul:IEEE, 2011:1022-1027.
[13]	GU Cheng-jie, ZHANG Shun-yi, XUE Xiao-zhen. Online self-learning internet traffic classification based on profile and ontology[J]. Journal of Convergence Information Technology, 2011, 6(4):81-91.
[14]	XIN Jun-chang, WANG Zhi-qiong, CHEN Chen, et al. ELM^*:Distributed extreme learning machine with map reduce[J]. World Wide Web, 2014, 17(5):1189-1204.
[15]	CHEN Jiao-yan, CHEN Hua-jun, WAN Xiang-yi, et al. MR-ELM:a map reduce-based framework for large-scale elm training in big data era[J]. Neural Computing and Applications, 2016, 27(1):101-110.
[16]	Al-KHATEEB T M, MASUD M M, KHAN L, et al. Cloud guided stream classification using class-based ensemble[C]//Proceedings of 2012 IEEE 5th International Conference on Cloud Computing (CLOUD). Honolulu, HI, USA:[s.n.], 2012:694-701.
[17]	SARA DEL RÍO, VICTORIA LÓPEZ, JOSÉ MANUEL BENíTEZ, et al. On the use of map reduce for imbalanced big data using random forest[J]. Information Sciences, 2014, 258(11):112-137.
[18]	郑天红. 基于Hadoop的网络流量分流并行化设计[D]. 呼和浩特:内蒙古大学, 2012. ZHENG Tian-hong. Design and Implementation of the parallelization based on hadoop model network traffic diversion[D]. Huhehaote:Inner Mongolia University, 2012.
[19]	MU Xue-feng, WU Wen-jun. A parallelized network traffic classification based on hidden markov model[C]//Proceedings of 2011 International Conference on Cyber-Enabled Distributed Computing and Knowledge Discovery. Beijing:[s.n.], 2011:107-112.
[20]	DAI Chao-fan, FENG Yang-he, ZHANG Peng-cheng. Retracted article:Research of ontology-based model representation method[C]//Proceedings of 2010 Second International Conference on Information Technology and Computer Science. Kiev, Ukraine:[s.n.], 2010:364-367.
[21]	The Apache software foundation. Hadoop[EB/OL].[2015-10-22]. http://hadoop.apache.org/.
[22]	MOORE A W, ZUEV D. Internet traffic classification using bayesian analysis techniques[EB/OL].[2015-11-11]. http://www.cl.cam.ac.uk/research/srg/netos/nprobe/data/papers/sigmetrics/index.html.

[1]	闫丽丽, 颜金歌, 张仕斌. 基于自适应网络的量子模糊推理系统 . 电子科技大学学报, 2023, 52(4): 482-488. doi: 10.12178/1001-0548.2022220
[2]	张云春, 王旺旺, 李成杰, 廖梓琨, 封凡, 林英. 物联网中融合网络流量的恶意软件检测 . 电子科技大学学报, 2023, 52(4): 602-609. doi: 10.12178/1001-0548.2022146
[3]	丁要军, 王安宙. 基于CWGAN-GP平衡化的网络恶意流量识别方法 . 电子科技大学学报, 2022, 51(5): 760-765. doi: 10.12178/1001-0548.2022011
[4]	韩仪, 冯鑫, 周金连, 吴晔, 肖井华. 知识标签网络生成机制研究 . 电子科技大学学报, 2021, 50(2): 294-302. doi: 10.12178/1001-0548.2020084
[5]	温怀玉, 霍伟东. 无线传感器网络流量重分配拥塞控制算法 . 电子科技大学学报, 2017, 46(2): 407-411. doi: 10.3969/j.issn.1001-0548.2017.02.015
[6]	陈莉, 刘弘. 基于跨本体语义相关的三维模型检索方法 . 电子科技大学学报, 2017, 46(4): 585-590. doi: 10.3969/j.issn.1001-0548.2017.04.018
[7]	李晓瑜, 俞丽颖, 雷航, 唐雪飞. 一种K-means改进算法的并行化实现与应用 . 电子科技大学学报, 2017, 46(1): 61-68. doi: 10.3969/j.issn.1001-0548.2017.01.010
[8]	罗永刚, 陈兴蜀, 杨露. 一种Mapreduce作业内存精确预测方法 . 电子科技大学学报, 2016, 45(6): 986-991. doi: 10.3969/j.issn.1001-0548.2016.06.019
[9]	陶晓玲, 韦毅, 王勇. 一种基于本体的并行网络流量分类方法 . 电子科技大学学报, 2016, 45(3): 417-422.
[10]	柏骏, 夏靖波, 鹿传国, 李明辉, 任高明. 基于RVM的网络流量分类研究 . 电子科技大学学报, 2014, 43(2): 241-246. doi: 10.3969/j.issn.1001-0548.2014.02.016
[11]	张永平, 张功萱, 朱昭萌. 物联网中压缩感知算法的云加速方法 . 电子科技大学学报, 2014, 43(3): 413-419. doi: 10.3969/j.issn.1001-0548.2014.03.017
[12]	邵小强, 马宪民. 基于混沌的煤矿监测网络流量异变的预测 . 电子科技大学学报, 2012, 41(3): 424-428. doi: 10.3969/j.issn.1001-0548.2012.03.020
[13]	欧鹏, 李志蜀, 胡建, 林珣. 利用Betweenness Centrality计算网络流量矩阵的新算法 . 电子科技大学学报, 2012, 41(1): 152-157. doi: 10.3969/j.issn.1001-0548.2012.01.029
[14]	谭骏, 陈兴蜀, 杜敏, 朱锴. 基于自适应BP神经网络的网络流量识别算法 . 电子科技大学学报, 2012, 41(4): 580-585. doi: 10.3969/j.issn.1001-0548.2012.04.020
[15]	钟秀琴, 符红光, 丁盘苹. 基于本体与Prolog的平面几何定理证明 . 电子科技大学学报, 2011, 40(3): 429-434. doi: 10.3969/j.issn.1001-0548.2011.03.020
[16]	蒋定德, 胡光岷, 倪海转. IP骨干网络流量矩阵估计算法研究 . 电子科技大学学报, 2010, 39(3): 420-424. doi: 10.3969/j.issn.1001-0548.2010.03.021
[17]	陈文宇, 张忠全, 向涛, 桑楠. 基于相似度的语义Web服务发现技术研究 . 电子科技大学学报, 2010, 39(6): 896-899,910. doi: 10.3969/j.issn.1001-0548.2010.06.019
[18]	潘斌, 郭红霞. MPI环境下的几何定理并行自动推理 . 电子科技大学学报, 2008, 37(6): 908-912.
[19]	艾未华, 宋自林, 魏磊, 吴量. 基于领域本体的Web服务发现 . 电子科技大学学报, 2007, 36(3): 506-509.
[20]	陆庆, 周世杰, 秦志光, 吴春江. 对等网络流量检测技术 . 电子科技大学学报, 2007, 36(6): 1333-1337.

点击查看大图

图(6)

计量

文章访问数: 4580
HTML全文浏览量: 1207
PDF下载量: 232
被引次数: 0

全文HTML

作为管理和优化各类网络资源的关键技术，网络流量分类^[1]广泛应用于网络监控、服务质量(quality of service,QoS)管理、网络安全、态势分析等领域，是高效实现网络管理、流量控制以及安全检测的重要环节。随着Web技术的发展和企业信息化需求的不断提高，许多新型网络应用模式和需求应运而生，网络环境也升级为高速、大规模、复杂网络，随之而来的网络流量数据呈现出新的特点：海量(数量惊人、信息丰富)、多源(数据源分布在离散的，彼此可以通信的多个网络节点上)、异构(格式异构、语法异构、语义异构)，致使网络流量分类面临严峻的挑战。

其一，各个网络节点传感器使用不同的流量采集系统收集网络数据包，在数据生成方式、存放方式和处理方式上呈现多样化，出现网络流量数据格式不一，类型不同，且不同数据存在语义区分等问题。因此，多个数据源提供的异构网络流量数据之间会存在数据不一致性问题，从而影响网络流量分类结果的准确性。

其二，目前主流的网络流量分类方法是基于流量统计特征的机器学习方法^[2]，因为此类方法需提取高维的流量统计特征，通过复杂的计算构造分类模型，面对海量的网络流量数据，处理时间开销较大，分类效率不高，这使得其不能满足高速网络流量分类的需求。

本体^[3]在信息系统中被定义为一种能在语义和知识层次上描述特定知识领域的形式化技术，具有良好的概念层次结构，对逻辑推理无缝支持，为信息资源规范、无二义性和可扩展性描述问题提供了有效的解决途径。文献^[4]提出采用本体作为网络流量信息资源的统一描述的思路。

并行处理技术MapReduce能够为可划分的大规模数据并行计算处理问题提供充分的并行计算语义，已经被普遍接受。该技术为提高网络流量分类中海量数据处理效率问题提供了新方法。因此，基于文献^[4]，本文借助并行处理技术MapReduce，提出一种基于本体的并行网络流量分类方法。该方法将发挥MapReduce在海量异构数据处理方面的优势，为本体的构建、知识管理及推理提供计算资源，用于海量网络流量数据并行处理、分类，为高速大规模复杂网络环境下的网络流量分类提供新思路和理论方法依据。

1. 相关工作

1.1. 本体及其应用

本体本质上是针对一个特定领域，对领域知识的标准化描述，以便相关领域学者在概念层面上达成共识，相互之间实现知识共享。本体作为一种知识表达的工具^[5]逐渐成为国内外的研究热点。文献^{[6, 7, 8]}主要集中在利用本体进行信息资源描述的模型一致性、逻辑一致性和关系一致性三方面。由此可见，本体为异构数据提供了统一的概念接口，并且独立于数据模式，可以对异构数据进行丰富的语义描述。

本体也被应用于决策支持系统中管理领域知识，并被许多推理机支持，用于实现知识推理^[9]。目前，基于本体的知识推理功能也被应用于分类问题。文献^[10]提出了一个基于本体的海洋卫星图像分类模型，构建了基于决策树和专家定制规则的图像本体分类器，该模型的分类准确率达到92.49%；文献^[11]将本体应用于轻度认知障碍(MCI)诊断，提出一种本体驱动的利用磁共振成像(MRI)自动诊断MCI的方法，并通过对比发现决策树算法更适用于构建推理规则集。

近年来，有少量研究者已尝试将本体应用于网络流的定义及分类模型的建立。文献^[12]构建了一个基于本体范例的分类树，首次尝试利用本体对网络流量类别进行标准化定义。文献^[13]设计了一个基于流轮廓和本体的在线、自学习网络流量分类模型，此模型比较复杂，文中也未给出该模型的具体实现。

1.2. 海量数据并行处理技术

面向海量数据的处理问题，考虑到单一节点的计算能力瓶颈，研究者们纷纷采用分布式或并行处理的方式来解决此类问题，其中基于并行处理技术MapReduce的海量数据处理方面的工作颇有成效。文献^{[14, 15]}分别提出了一种基于MapReduce的分布式ELM学习模型及训练框架，实验证明，在大数据的学习及训练方面是有效的。

MapReduce技术也被研究者们用于解决海量数据的分类问题。文献^[16]提出一种基于类别的集成技术用于分类概念漂移数据流，采用了基于MapReduce的技术提高分类方法的效率和鲁棒性。文献^[17]指出MapReduce具有易于开发的可扩展性和容错性，进而提出了一种基于MapReduce的随机森林方法来处理非平衡大数据的分类问题。

复杂网络环境下，网络链路中不断增加的待处理数据与基于单机的计算机系统处理能力的矛盾日益突出，有少数的国内外学者也将MapReduce技术应用于网络流量的处理。文献^[18]提出了一个基于Hadoop平台的网络流量分流并行处理结构，实验验证对于大数据进行分流时，该结构优势显著。文献^[19]提出基于高斯混合模型-隐马尔可夫模型的网络流量分类方法，模型使用了两个数据包级属性来构建，实现了一个基于MapReduce的并行分类架构，并验证了模型具有灵活性。

5. 结束语

针对海量、多源、异构网络流量的分类，本文结合了本体和云计算技术的优势，提出了一种基于本体的并行网络流量分类方法。该方法建立在MapReduce并行计算架构之上，结合网络流量本体结构，设计基于MapReduce的网络流量本体构建方法，及并行知识推理的网络流量分类方法。实验表明，MapReduce并行处理技术可以有效地提高网络流量本体构建的效率及网络流量的分类效率。下一步我们将研究对未知网络流量的描述以及本体知识库的自我管理与更新，实现在线的网络流量本体并行化构建方法和网络流量的实时并行分类方法，以适应大规模复杂网络流量的实时、准确分类。

参考文献 (22)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

一种基于本体的并行网络流量分类方法

doi: 10.3969/j.issn.1001-0548.2016.02.018

作者简介:
陶晓玲(1977-),女,副研究员,主要从事云计算、网络安全及机器学习方面的研究

An Ontology Based Parallel Network Traffic Classification Method

计量

一种基于本体的并行网络流量分类方法

doi: 10.3969/j.issn.1001-0548.2016.02.018

1. 桂林电子科技大学认知无线电与信息处理省部共建教育部重点实验室广西桂林 541004

2. 桂林电子科技大学广西高校云计算与复杂系统重点实验室广西桂林 541004

3. 桂林电子科技大学广西可信软件重点实验室广西桂林 541004

作者简介:
陶晓玲(1977-),女,副研究员,主要从事云计算、网络安全及机器学习方面的研究

English Abstract