基于网格划分加权的分布式离群点检测算法

梅林; 张凤荔; 王瑞锦; 高强

doi:10.12178/1001-0548.2020202

基于网格划分加权的分布式离群点检测算法

doi: 10.12178/1001-0548.2020202

梅林^{1, 2},
张凤荔^1, ,,
王瑞锦¹,
高强¹

1.
电子科技大学网络与数据安全四川省重点实验室　成都　610054
2.
西南民族大学计算机科学与技术学院　成都　610225

基金项目: 西南民族大学中央高校基本科研业务费(2017NZYQN26)；国家自然科学基金(61802033，61472064，61602096)；四川省科技计划(2018GZ0087，2019YJ0543)

详细信息

作者简介:
梅林(1983-)，男，博士生，主要从事离群点检测、分布式计算等方面的研究

通讯作者: 张凤荔，E-mail：fzhang@uestc.edu.cn

中图分类号: TP393

A Weighted Distributed Outlier Detection Algorithm Based on Grid Partition

MEI Lin^{1, 2},
ZHANG Feng-li^{1
, ,},
WANG Rui-jin¹,
GAO Qiang¹

1.
Network and Data Security Key Laboratory of Sichuan Province, University of Electronic Science and Technology of China　Chengdu　610054
2.
School of Computer Science and Technology, Southwest Minzu University　Chengdu　610225

摘要: 分布式计算被广泛应用于离群点检测问题，但分布式环境中节点计算性能的差异带来了数据计算性能的下降问题。针对面向大尺度高维数据离群点分布式计算的负载均衡问题，该文提出了一种加权分布式离群点检测方法。首先根据数据节点的计算性能确定数据节点的权值，然后将数据空间划分为若干个网格，最后设计了一种基于网格划分的加权分配算法WGBA，将这些网格分配到数据节点中，实现并行计算。实验验证了该方法的有效性。
- 基于密度的离群点检测 /
- 分布式算法 /
- 网格划分 /
- 局部异常值因子
Abstract: Outlier detection as one of the hot issues in data mining area aims to discover the objects with abnormal behaviors from the original data distribution. And it can generate many valuable applications, e.g., bank fraud, network instruction and etc. Currently, distributed computing has been widely applied in outlier detection. However, it still brings the lower performance of data computing since there are computing differences in compute nodes of distributed environment. To solve the problem of load balancing in distributed computing-based outlier detection with respect to large scale and high dimensional data, a weighted distributed outlier detection method has been proposed. First, we tend to ascertain the weight of data node based on computing performance of data node, whereafter dividing the data space into several grids. At last, for the purpose of parallel computing, a weighted grid-based allocation algorithm based on grid dividing is proposed, which allocates the grids to configured data nodes. The extensive experiments verify the effectiveness of proposed method, and demonstrate its better performance.
- dense-based outlier detection /
- distributed algorithm /
- grid partition /
- local outlier factor

图 1 邻近网格LOF计算示例(k=3)

下载: 全尺寸图片幻灯片

图 2 计算架构

下载: 全尺寸图片幻灯片

图 3 网格划分案例

下载: 全尺寸图片幻灯片

图 4 算法1示例

下载: 全尺寸图片幻灯片

图 5 k值选取对模型的影响

下载: 全尺寸图片幻灯片

图 6 数据尺度对模型性能影响

下载: 全尺寸图片幻灯片

表 1 实验环境配置

数据节点	配置
数据节点a	Intel Core i7 6700k @ 4 GHz，16 G 内存
数据节点b	Intel Core i3 3220 @ 3.3 GHz，8 G 内存
数据节点c	Intel Core i5 8250u @1.6 GHz，8 G 内存
数据节点d	Intel Core i5 2540m @2.4 GHz，4 G 内存

下载: 导出CSV

表 2 公开数据集特征

数据集名称	数据点个数	数据维度
Wisdm	15630426	6
Query Analytics Workloads	260000	8
Tamilnadu Electricity Board Hourly Readings	45781	5

下载: 导出CSV

表 3 公开数据集的实验结果

模型	运算时长/ms
模型	Wisdm	Query Analytics Workloads	Tamilnadu Electricity Board Hourly Readings
PLOFA	2.38×10⁶	45 814	3 758
GBP	545 788	14 793	1 632
WGBA	371 749	7 233	1 310
Centralized LOF	7.09×10⁶	65 283	4 462

下载: 导出CSV

[1]	ADEWUMI A O, AKINYELU A A. A Survey of machine-learning and nature-inspired based credit card fraud detection techniques[J]. International Journal of System Assurance Engineering and Management, 2017, 8(2): 937-953.
[2]	JURGOVSKY J, GRANITZER M, ZIEGLER K, et al. Sequence classification for credit-card fraud detection[J]. Expert Systems with Applications, 2018, 100: 234-245. doi: 10.1016/j.eswa.2018.01.037
[3]	UMER M F, SHER M, BI Y. A two-stage flow-based intrusion detection model for next-generation networks[J]. PloS One, 2018, DOI: 10.1371/journal.pone.0180945.
[4]	杨晓明, 张翔, 王佳昊, 等. 基于有限自动机的RFID入侵检测[J]. 电子科技大学学报, 2014, 43(5): 775-780. doi: 10.3969/j.issn.1001-0548.2014.05.025 YANG Xiao-ming, ZHANG Xiang, WANG Jia-hao, et al. RFID intrusion detection with finite automation[J]. Journal of University of Electronic Science and Technology of China, 2014, 43(5): 775-780. doi: 10.3969/j.issn.1001-0548.2014.05.025
[5]	KHALEGHI A, MOIN M S. Improved anomaly detection in surveillance videos based on a deep learning method[C]//2018 8th Conference of AI & Robotics and 10th RoboCup Iranopen International Symposium (IRANOPEN). [S.l.]: IEEE, 2018: 73-81.
[6]	KIRAN B R, THOMAS D M, PARAKKAL R. An overview of deep learning based methods for unsupervised and semi-supervised anomaly detection in videos[J]. Journal of Imaging, 2018, 4(2): 36. doi: 10.3390/jimaging4020036
[7]	SEWAK M, SAHAY S K, RATHORE H. An investigation of a deep learning based malware detection system[C]//Proceedings of the 13th International Conference on Availability, Reliability and Security. ACM, 2018: 1-5.
[8]	BOJAN K, ERAISHA G, WEBSTER G, et al. Empowering convolutional networks for malware classification and analysis[C]//2017 International Joint Conference on Neural Networks (IJCNN). [S.l.]: IEEE, 2017: 3838-3845.
[9]	GOBINATH L, SAMARABANDU J, WANG Xian-bin. Sequence to sequence pattern learning algorithm for real-time anomaly detection in network traffic[C]//2018 IEEE Canadian Conference on Electrical & Computer Engineering (CCECE). [S.l.]: IEEE, 2018: 1-4.
[10]	LÄNGKVIST M, KARLSSON L, LOUTFI A. A review of unsupervised feature learning and deep learning for time-series modeling[J]. Pattern Recognition Letters, 2014, 42: 11-24. doi: 10.1016/j.patrec.2014.01.008
[11]	HAWKINS D M. Identification of outliers[M]. London: Chapman and Hall, 1980.
[12]	吴镜锋, 金炜东, 唐鹏. 数据异常的监测技术综述[J]. 计算机科学, 2017(S2): 34-38. WU Jing-feng, JIN Wei-dong, TANG Peng. Survey on monitoring techniques for data abnormalities[J]. Computer Science, 2017(S2): 34-38.
[13]	梅林, 张凤荔, 高强. 离群点检测技术综述[EB/OL]. [2020-04-29]. https://www.arocmag.com/article/02-2020-12-002.html. MEI Lin, ZHANG Feng-li, GAO Qiang. Overview of outlier detection technology[EB/OL]. [2020-04-29]. https://www.arocmag.com/article/02-2020-12-002.html
[14]	KNORR E, NG R. Algorithms for mining distance-based outliers in large datasets[C]//Proc of the 24th VLDB Conference. San Francisco: Morgan Kaufmann Publishers Inc, 1998: 392-403.
[15]	BREUNIG M M, KRIEGEL H P, NG R T, et al. LOF: Identifying density-based local outliers [C]//ACM sigmod record. New York: ACM Press, 2000: 93-104.
[16]	施化吉, 周书勇, 李星毅, 等. 基于平均密度的孤立点检测研究[J]. 电子科技大学学报, 2007, 36(6): 1286-1288, 1295. SHI Hua-ji, ZHOU Shu-yong, LI Xing-yi, et al. Average density-based outliers detection[J]. Journal of University of Electronic Science and Technology of China, 2007, 36(6): 1286-1288, 1295.
[17]	KRIEGEL H P, KRÖGER P, SCHUBERT E, et al. LOOP: Local outlier probabilities[C]//Proceedings of the 18th ACM conference on Information and knowledge management. [S.l.]: ACM, 2009: 1649-1652.
[18]	KOUFAKOU A, SECRETAN J, REEDER J, et al. Fast parallel outlier detection for categorical datasets using MapReduce[C]//IEEE International Joint Conference on Neural Networks. Piscataway, NJ: IEEE Press, 2008: 3298-3304.
[19]	HE Qing, MA Yun-long, WANG Qun, et al. Parallel outlier detection using kd-tree based on mapreduce[C]//IEEE Third International Conference on Cloud Computing Technology & Science. Piscataway, NJ: IEEE Press, 2012: 75-80.
[20]	OTEY M E, GHOTING A, PARTHASARATHY S. Fast distributed outlier detection in mixed-attribute data sets[J]. Data Mining and Knowledge Discovery, 2006, 12(2-3): 203-228. doi: 10.1007/s10618-005-0014-6
[21]	ANGIULLI F, BASTA S, LODI S, et al. Distributed strategies for mining outliers in large data sets[J]. IEEE Transactions on Knowledge and Data Engineering, 2013, 25(7): 1520-1532. doi: 10.1109/TKDE.2012.71
[22]	LOZANO E, ACUNA E. Parallel algorithms for distance-based and density-based outliers[C]//Proceedings of the Fifth IEEE International Conference on Data Mining. Piscataway, NJ: IEEE Press, 2005: 4.
[23]	BAI MEI, WANG X, XIN Jun-chang, et al. An efficient algorithm for distributed density-based outlier detection on big data[J]. Neurocomputing, 2016, 181(C): 19-28.
[24]	MERZ C J. UCI repository of machine learning databases[EB/OL]. [2020-01-23]. http://www.ics.uci.edu/~mlearn/MLRepository.html.

[1]	黄庆东, 石斌宇, 郭民鹏, 袁润芝, 陈晨. 基于Q-learning的分布式自适应拓扑稳定性算法 . 电子科技大学学报, 2020, 49(2): 262-268. doi: 10.12178/1001-0548.2019076
[2]	林静然, 姜昌旭, 利强, 邵怀宗, 李玉柏. 基于ADMM的分布式功率分配和接入控制联合优化算法 . 电子科技大学学报, 2016, 45(5): 726-731. doi: 10.3969/j.issn.1001-0548.2016.05.003
[3]	段思睿, 刘元安, 胡鹤飞, 李虎. LEO卫星网络中基于分布式路由算法的流量均衡策略 . 电子科技大学学报, 2014, 43(3): 375-380. doi: 10.3969/j.issn.1001-0548.2014.03.010
[4]	胡学海, 王厚军, 黄建国. 分布式目标检测融合决策优化算法 . 电子科技大学学报, 2013, 42(3): 375-379. doi: 10.3969/j.issn.1001-0548.2013.03.011
[5]	李慧贤, 庞辽军, 程春田, 蔡皖东. 基于资源可用门限的分布式作业调度 . 电子科技大学学报, 2007, 36(2): 254-256,308.
[6]	施化吉, 周书勇, 李星毅, 唐慧, 丁秋林. 基于平均密度的孤立点检测研究 . 电子科技大学学报, 2007, 36(6): 1286-1288,1295.
[7]	王启科, 刘心松, 邱元杰, 周涛, 黎屹. 分布式并行安全操作系统的用户一致性算法 . 电子科技大学学报, 2007, 36(2): 239-241,270.
[8]	左朝树, 刘心松, 邱元杰, 陈小辉, 李可. 一种分布式并行服务器节点故障检测算法 . 电子科技大学学报, 2007, 36(1): 119-121,125.
[9]	张海涛, 艾云峰. 一种分布式实时嵌入式系统的调度分析算法 . 电子科技大学学报, 2007, 36(3): 489-492.
[10]	钟欢, 许春香, 秦志光. Ad Hoc网络中的分布式证书撤消机制 . 电子科技大学学报, 2007, 36(3): 496-499.
[11]	顾攀, 刘心松, 陈小辉, 邱元杰, 左朝树. 分布式并行数据库系统中任务分配算法的设计 . 电子科技大学学报, 2006, 35(6): 946-949.
[12]	闫钧华, 张焕春, 经亚枝. 基于Multi-Agent的分布式测控系统任务调度算法 . 电子科技大学学报, 2006, 35(1): 62-65.
[13]	陈文宇, 桑楠, 屈鸿. 分布式对象调试中的事件模型 . 电子科技大学学报, 2005, 34(3): 377-380.
[14]	杨挺, 罗光春. 分布式入侵检测系统修复机制 . 电子科技大学学报, 2005, 34(5): 634-637.
[15]	左朝树, 刘心松, 邱元杰, 刘克剑, 杨峰. 用于分布式并行数据库系统的重定向算法 . 电子科技大学学报, 2005, 34(5): 646-649.
[16]	彭涛, 唐斌. 一种分布式信号源的参数估计算法 . 电子科技大学学报, 2005, 34(5): 611-613,664.
[17]	陈俊, 汪学刚. 高效实时的抽取滤波器的FPGA实现 . 电子科技大学学报, 2005, 34(6): 755-758.
[18]	王路, 袁宏春, 万里冰. 基于IP的点对点分布式VPN系统 . 电子科技大学学报, 2004, 33(1): 67-70.
[19]	陈霖. 分布式入侵检测系统的设计 . 电子科技大学学报, 2002, 31(2): 188-191.
[20]	赵国庆, 王文祥. 轴对称电子光学系统空间的自动网格划分 . 电子科技大学学报, 2002, 31(1): 44-47.

点击查看大图

图(6) / 表(3)

计量

文章访问数: 5193
HTML全文浏览量: 1661
PDF下载量: 47
被引次数: 0

全文HTML

海量数据井喷式爆发及计算机硬件技术的发展使降维技术、分布式计算技术、云计算技术等在数据挖掘领域大量运用。离群点检测作为大数据时代的重要研究方向之一，已获得研究人员的广泛关注。目前，离群点检测技术已应用于防止银行诈骗^[1-2]、网络入侵检测^[3-4]、视频监控^[5-6]、恶意软件检测^[7-8]、时间序列异常检测^[9-10]等热门领域。离群点检测可以帮助发现有价值的知识和异常模式，帮助人们分析数据中存在的异常行为、不规则信息特征等。大规模离群点数据处理对计算性能提出了更高的时间限制，而利用分布式计算解决离群点检测问题受到学术界和工业界的广泛关注。

目前离群点检测没有一个被广泛接受的泛化定义。关于离群点的解释大多基于文献[11]的基础作出基于策略方法的具体描述。文献[12-13]对近年来离群点检测的方法做出了综述。其中关于邻近性的方法研究长盛不衰，主要包括基于距离的模型^[14]和基于距离模型引申而来的基于密度的模型^[15]。基于距离的模型是一种全局离群点检测方法，在数据集中，处于低密度区域和高密度区域之间的对象更有可能是离群点，但却难以检出。而基于密度的模型因为引入了对象邻域的概念，在众多应用场景中或检测准确率上高于基于距离的模型。随后，基于密度的模型相继产生了很多变种^[16-17]，并在适应性方面进行了扩展。然而，随着数据尺度的增加，集中式的检测算法对服务器的计算性能、端口的吞吐量都有很高的要求。例如针对大型超市、证券交易中心而言，每天都会产生大量的交易信息。如果使用传统的集中式算法计算离群值，则需要花费数小时甚至数天的时间，无法保证时间有效性，在容错性上也难以满足要求。因此设计并行算法非常必要，该算法可用多台计算机来加速离群值计算。

文献[18]利用Hadoop MapReduce架构提出了一种基于属性值频率AVF(attribute value frequency)的在分类数据集上快速而简单检测离群点的方法MR-AVF(mapReduce- attribute value frequency)，由于不适合在数值属性上使用，因此应用范围较为有限。文献[19]实现了一种基于并行KD-Tree的离群值检测算法(parallel KD-tree, PKDTree)，实验显示其在大尺度数据集中的情况下有良好的检测性能。文献[20]提出了一种混合了类标号属性以及连续属性的数据的离群点定义，然后设计出一种分布式方法挖掘离群点。文献[21]提出了一种分布式环境下的Top-n离群点检测方法。文献[22]采用主从(master-slave)结构实现了LOF (local outlier factor)方法的并行计算。从节点中独立计算每个数据点的局部邻域，然后将所有数据点及其邻域转移到主节点，并在主节点上计算最终结果。因为最终所有的数据点被转移到主节点，主节点上的工作负载相当繁重。因此，当数据尺度较大时，这种方法性能将急剧下降。在文献[22]基础上，文献[23]提出了一种改进的架构。该架构由一个协调器和多个数据节点组成，并设计出相应的GBP(grid-based partition)算法。其中，协调器只负责整个调度，每个数据节点负责存储和计算数据子集的LOF值。经过比较，由于该架构的协调器不参与LOF值的计算，而将计算量分散到各数据节点中，因此计算速度得到很大提升。

然而，GBP模型是按照所有数据节点是均匀的，即运算性能相同这一前提条件设计的。现实中，经常面对的环境是数据节点性能各异。例如，数台高性能计算机和数台低性能计算机搭配。GBP模型不考虑数据节点的性能差异，往往造成性能低下的数据节点分配了过多的计算量，影响了系统的整体性能。

因此，本文提出了一种考虑数据节点性能差异的改进方法，首先确定各数据节点的性能权值，再设计分配算法考虑运算负载和网络负载的均衡性。与GBP相比，该方法可在非对称分布式环境中布置基于密度的离群点检测算法，实验证明了该方法的有效性。

4. 结束语

针对大尺度数据下异常检测分布式计算负载均衡问题，本文提出了一种基于密度的分布式检测方法WGBA。与以往技术不同，该方法考虑了数据节点的性能差异，以平衡运算负载，并且同时考虑了网络负载，因此具有很好的适应性。最后，实验结果与分析说明了本文方法的有效性。

参考文献 (24)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于网格划分加权的分布式离群点检测算法

doi: 10.12178/1001-0548.2020202

作者简介:
梅林(1983-)，男，博士生，主要从事离群点检测、分布式计算等方面的研究

通讯作者: 张凤荔，E-mail：fzhang@uestc.edu.cn

A Weighted Distributed Outlier Detection Algorithm Based on Grid Partition

计量

基于网格划分加权的分布式离群点检测算法

doi: 10.12178/1001-0548.2020202

1. 电子科技大学网络与数据安全四川省重点实验室　成都　610054

2. 西南民族大学计算机科学与技术学院　成都　610225

作者简介:
梅林(1983-)，男，博士生，主要从事离群点检测、分布式计算等方面的研究

通讯作者: 张凤荔，E-mail：fzhang@uestc.edu.cn

English Abstract

A Weighted Distributed Outlier Detection Algorithm Based on Grid Partition

1. Network and Data Security Key Laboratory of Sichuan Province, University of Electronic Science and Technology of China　Chengdu　610054

2. School of Computer Science and Technology, Southwest Minzu University　Chengdu　610225

全文HTML

1.1. LOF算法的基本概念

1.2. GBP算法的相关概念

2.1. 计算架构

2.2. 数据节点的权重

2.3. WGBA算法

2.4. 算法示例

3.1. 公开数据集

3.2. 人工数据集

目录

期刊在线

编辑办公

友情链接

留言板

基于网格划分加权的分布式离群点检测算法

doi: 10.12178/1001-0548.2020202

作者简介: 梅林(1983-)，男，博士生，主要从事离群点检测、分布式计算等方面的研究

通讯作者: 张凤荔，E-mail：fzhang@uestc.edu.cn

A Weighted Distributed Outlier Detection Algorithm Based on Grid Partition

计量

出版历程

基于网格划分加权的分布式离群点检测算法

doi: 10.12178/1001-0548.2020202

1. 电子科技大学网络与数据安全四川省重点实验室 成都 610054 2. 西南民族大学计算机科学与技术学院 成都 610225

作者简介: 梅林(1983-)，男，博士生，主要从事离群点检测、分布式计算等方面的研究

通讯作者: 张凤荔，E-mail：fzhang@uestc.edu.cn

English Abstract

A Weighted Distributed Outlier Detection Algorithm Based on Grid Partition

1. Network and Data Security Key Laboratory of Sichuan Province, University of Electronic Science and Technology of China Chengdu 610054 2. School of Computer Science and Technology, Southwest Minzu University Chengdu 610225

全文HTML

1.1. LOF算法的基本概念

1.2. GBP算法的相关概念

2.1. 计算架构

2.2. 数据节点的权重

2.3. WGBA算法

2.4. 算法示例

3.1. 公开数据集

3.2. 人工数据集

目录

期刊在线

编辑办公

友情链接

作者简介:
梅林(1983-)，男，博士生，主要从事离群点检测、分布式计算等方面的研究

1. 电子科技大学网络与数据安全四川省重点实验室　成都　610054

2. 西南民族大学计算机科学与技术学院　成都　610225

作者简介:
梅林(1983-)，男，博士生，主要从事离群点检测、分布式计算等方面的研究

1. Network and Data Security Key Laboratory of Sichuan Province, University of Electronic Science and Technology of China　Chengdu　610054

2. School of Computer Science and Technology, Southwest Minzu University　Chengdu　610225