基于图形处理器的并行遗传过程挖掘

李龚亮; 敬思远; 郭兵; 沈艳

doi:10.3969/j.issn.1001-0548.2019.06.017

基于图形处理器的并行遗传过程挖掘

doi: 10.3969/j.issn.1001-0548.2019.06.017

李龚亮^1,2,
敬思远³,
郭兵^1, ,,
沈艳⁴

1.
四川大学计算机学院成都 610065
2.
中国工程物理研究院计算机应用研究所四川绵阳 621000
3.
乐山师范学院计算机科学学院四川乐山 614000
4.
成都信息工程大学控制工程学院成都 610225

基金项目:

国家自然科学基金重点项目 61332001

国家自然科学基金 61772352

国家自然科学基金 61472050

四川省科技计划 2018ZDZX0010

四川省科技计划 2017GZDZX0003

四川省科技计划 2018JY0182

详细信息

作者简介:
李龚亮(1982-), 男, 博士生, 高级工程师, 主要从事过程挖掘、信息系统、企业大数据方面的研究

通讯作者: 郭兵, E-mail:guobin@scu.edu.cn

中图分类号: TP311.1

Parallel Genetic Process Mining Based on Graphics Processing Unit

1.
School of Computer, Sichuan University Chengdu 610065
2.
Institute of Computing Applications, China Academy of Engineering Physics Mianyang Sichuan 621000
3.
School of Computer Science, Leshan Normal University Leshan Sichuan 614000
4.
School of Control Engineering, Chengdu University of Information Technology Chengdu 610225

摘要: 为提高遗传过程挖掘算法对大规模事件日志处理的性能，该文提出一种基于GPU的并行遗传过程挖掘算法。由于传统基于二进制的染色体编码不能表示因果矩阵中的AND-Split/AND-Join和OR-Split/OR-Join结构，提出一种新的染色体编码方案。该方案通过内容、标识、位置3个数组，有效地解决了GPU上因果矩阵的遗传表示问题。同时，设计并实现了高效的遗传交叉/变异算子和适应度并行计算方法。仿真实验表明，与当前CPU上的遗传过程挖掘算法相比，本文算法在求解精度和收敛速度方面都具有明显优势，并且在两个数据集上分别取得36.4倍和47.2倍的执行时间加速比。
- 遗传算法 /
- 图形处理器 /
- Petri网 /
- 过程挖掘 /
- 工作流
Abstract: To improve the performance of genetic process mining algorithm for handling large scale event log, a GPU-based parallel genetic process mining algorithm is proposed. Since traditional binary chromosome coding method can not represent the AND-Split/AND-Join and the OR-Split/OR-Join structures in causal matrix, a new coding method of chromosome is proposed. The proposed method can effectively solve the problem of genetic representation of causal matrix on graphics processing units (GPU) by three arrays, which are content, labels and position. Meanwhile, the efficient genetic crossover/mutation operators and a parallel method of fitness value computation are designed and implemented. Simulation experiments show that the proposed algorithm, compared with the CPU-based genetic process mining algorithm, has obvious advantages in precision and convergence rate, and moreover it obtains speedup of 36.4 and 47.2 on two data sets respectively.
- genetic algorithm /
- graphics processing unit /
- Petri net /
- process mining /
- workflow

图 1 过程模型示例

下载: 全尺寸图片幻灯片

图 2 因果矩阵在GPU上的染色体编码

下载: 全尺寸图片幻灯片

图 3 一个遗传交叉的例子

下载: 全尺寸图片幻灯片

图 4 event log 48数据集下的性能比较

下载: 全尺寸图片幻灯片

图 5 event log 72数据集下的性能比较

下载: 全尺寸图片幻灯片

表 1 因果矩阵

任务	I (T)	O (T)
A	{}	{{B, C, D}}
B	{{A}}	{{H}}
C	{{A}}	{{H}}
D	{{A}}	{{E}, {F}}
E	{{D}}	{{G}}
F	{{D}}	{{G}}
G	{{E}, {F}}	{{H}}
H	{{B, C, G}}	{}

下载: 导出CSV

表 2 遗传过程挖掘算法参数设置

参数	event log 48		event log 72
参数	GPM / DGPM	GPM-GPU	GPM / DGPM	GPM-GPU
种群数	150	150	200	200
进化代数	200	200	400	400
交叉概率	0.8	—	0.8	—
变异概率	0.2	0.2	0.2	0.2
$\kappa $	0.025	0.025	0.025	0.025

下载: 导出CSV

表 3 优化策略的适应度值与执行时间开销比较

实验序号	遗传算子	event log 48			event log 72
实验序号	遗传算子	适应度	执行时间/ms		适应度	执行时间/ms
实验一	WC	0.929	23.6	0.875		27.3
实验一	NC	0.923	40.3	0.873		47.8
实验二	CGM	0.929	65.2	0.875		71.6
实验二	FGM	0.928	143.8	0.878		159.5
实验三	STB	-	123.7	-		142.2
实验三	SIB	-	680.4	-		764.8

下载: 导出CSV

表 4 执行时间开销及加速比

事件日志	GPM执行时间/s	DGPM		GPM-GPU
事件日志	GPM执行时间/s	执行时间/s	加速比	执行时间/s	加速比
event log 48	1 632.9	482.8	3.4	44.8	36.4
event log 72	5 022.3	1572.3	3.2	106.5	47.2

下载: 导出CSV

[1]	VAN DER AALST W. Process mining:Data science in action[M]. 2nd edition. Berlin:Springer, 2016.
[2]	赵卫东, 刘海涛.流程挖掘在流程优化中的应用[J].计算机集成制造系统, 2014, 20(10):2633-2642. http://d.old.wanfangdata.com.cn/Periodical/jsjjczzxt201410030 ZHAO Wei-dong, LIU Hai-tao. Application of process mining in process optimization[J]. Computer Integrated Manufacturing Systems, 2014, 20(10):2633-2642. http://d.old.wanfangdata.com.cn/Periodical/jsjjczzxt201410030
[3]	余建波, 郑小云, 李传峰, 等.基于过程挖掘的临床路径Petri网建模[J].同济大学学报, 2018, 46(4):524-534. http://d.old.wanfangdata.com.cn/Periodical/tjdxxb201804016 YU JIAN-bo, ZHENG Xiao-yun, LI Chuan-feng, et al. Clinical pathway modeling by petri net based on process mining[J]. Journal of Tongji University, 2018, 46(4):524-534. http://d.old.wanfangdata.com.cn/Periodical/tjdxxb201804016
[4]	魏志杰, 金涛, 王建民.基于临床数据挖掘的医疗过程异常发现方法及应用[J].计算机集成制造系统, 2018, 24(7):1631-1641. http://d.old.wanfangdata.com.cn/Periodical/jsjjczzxt201807005 WEI Zhi-jie, JIN Tao, WANG Jian-ming. Outlier detection method in healthcare process based on clinical data mining[J]. Computer Integrated Manufacturing Systems, 2018, 24(7):1631-1641. http://d.old.wanfangdata.com.cn/Periodical/jsjjczzxt201807005
[5]	杨丽琴, 康国盛, 蔡伟刚, 等.业务流程挖掘算法研究[J].计算机应用与软件, 2016, 33(4):44-50. doi: 10.3969/j.issn.1000-386x.2016.04.011 YANG Li-qin, KANG Guo-sheng, CAI Wei-gang, et al. On business process mining algorithms[J]. Computer Applications and Software, 2016, 33(4):44-50. doi: 10.3969/j.issn.1000-386x.2016.04.011
[6]	VAN DER AALST W, WEIJTERS T, MARUSTER L. Workflow mining:Discovering process model from event logs[J]. IEEE Transactions on Knowledge and Data Engineering, 2004, 16(9):1128-1142. doi: 10.1109/TKDE.2004.47
[7]	WEN L J, VAN DER AALST W, WANG J M. Mining process model with non-free-choice constructs[J]. Data Mining and Knowledge Discovering, 2007, 15(2):145-180. doi: 10.1007/s10618-007-0065-y
[8]	VAN ZELST S, VAN DONGEN B, VAN DER AALST W, et al. Discovering workflow nets using integer linear programming[J]. Computing, 2018, 100(5):529-556. doi: 10.1007/s00607-017-0582-5
[9]	ALVES DE MEDEIROS A, WEIJTERS A, VAN DER AALST W. Genetic process mining:An experimental evaluation[J]. Data Mining and Knowledge Discovering, 2007, 14(2):245-304. doi: 10.1007/s10618-006-0061-7
[10]	顾春琴, 陶乾, 吴家培, 等.基于混合自适应遗传算法的工作流挖掘优化[J].计算机科学, 2010, 37(3):234-238. doi: 10.3969/j.issn.1002-137X.2010.03.058 GU Chun-Qin, TAO Qian, WU Jian-pei, et al. Workflow mining optimization based on hybrid adaptive genetic algorithm[J]. Computer Science, 2010, 37(3):234-238. doi: 10.3969/j.issn.1002-137X.2010.03.058
[11]	VAN DER AALST W, DAMIANI E. Processes meet big data:Connecting data science with process science[J]. IEEE Transactions on Services Computing, 2015, 8(2):810-819. http://cn.bing.com/academic/profile?id=fceb1d6a93962a59d678f5841f4521c3&encoded=0&v=paper_preview&mkt=zh-cn
[12]	BRATOSIN C, SIDOROVA N, VAN DER AALST W. Distributed genetic process mining[C]//Proceedings of the IEEE World Congress on Computational Intelligence. Los Alamitos: IEEE, 2010: 1951-1958.
[13]	VERBEEK H M W, VAN DER AALST W, MUNOZGAMA J. Divide and conquer:A tool framework for supporting decomposed discovery in process mining[J]. The Computer Journal, 2017, 60(11):1649-1674. doi: 10.1093/comjnl/bxx040
[14]	WANG J M, WONG R K, DING J, et al. Efficient selection of process mining algorithms[J]. IEEE Transactions on Service Computing, 2013, 6(4):484-496. doi: 10.1109/TSC.2012.20
[15]	DAVID K, HWU W M. Programming massively parallel processors:A hand-on approach[M]. San Francisco:Morgan Kaufmann Publishers, 2010.
[16]	RYOO S, RODRIGUES C I, BAGHSORKHI S S, et al. Optimization principles and application performance evaluation of a multi-threaded GPU using CUDA[C]//Proceedings of the 13th ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming. New York: ACM, 2008: 73-82.

[1]	郑长友, 刘晓明, 姚奕, 任正平. 基于Petri网的面向测试的工作流系统建模方法 . 电子科技大学学报, 2014, 43(1): 119-124. doi: 10.3969/j.issn.1001-0548.2014.01.020
[2]	薛羽, 庄毅, 朱浩, 张友益礻禹. 求解协同干扰问题的高效免疫遗传算法 . 电子科技大学学报, 2013, 42(3): 452-458. doi: 10.3969/j.issn.1001-0548.2013.03.026
[3]	汤志伟, 殷静. 基于扩展Petri网的仿真建模与分析 . 电子科技大学学报, 2012, 41(1): 131-135. doi: 10.3969/j.issn.1001-0548.2012.01.025
[4]	童恩栋, 牛温佳, 谭红艳, 赵志军, 唐晖. 面向传感网的服务构建与并发控制 . 电子科技大学学报, 2011, 40(3): 322-332. doi: 10.3969/j.issn.1001-0548.2011.03.001
[5]	李向阳, 张亚非. 一种基于遗传算法的语义标注 . 电子科技大学学报, 2007, 36(1): 86-89.
[6]	张海涛, 艾云峰. 一种分布式实时嵌入式系统的调度分析算法 . 电子科技大学学报, 2007, 36(3): 489-492.
[7]	刘晓明, 饶翚. 基于OGSA的网格工作负载监测系统研究 . 电子科技大学学报, 2007, 36(5): 824-826,857.
[8]	王志红, 杜平安, 郭志龙, 梁山虎. 基于遗传算法与动态规划法的工艺过程优化 . 电子科技大学学报, 2007, 36(1): 146-149.
[9]	吴传信, 倪明放, 陈鸣. 路由选择的一种新遗传算法 . 电子科技大学学报, 2006, 35(5): 744-747.
[10]	唐普英, 李志辉, 黄顺吉. 基于遗传算法和禁忌搜索的多用户检测器 . 电子科技大学学报, 2004, 33(5): 499-502.
[11]	黄羽, 黄迪明, 何险峰, 武明. 遗传算法在入侵检测中的应用 . 电子科技大学学报, 2003, 32(6): 679-682.
[12]	王忠, 柴贺军, 刘浩吾. 关于进化遗传算法的几点改进 . 电子科技大学学报, 2002, 31(1): 76-79.
[13]	王海枚, 游志胜. 基于遗传算法与模糊控制的建模方法 . 电子科技大学学报, 2002, 31(3): 266-269.
[14]	张宇, 郭晶, 周激流. 动态变异遗传算法 . 电子科技大学学报, 2002, 31(3): 234-239.
[15]	周世杰, 秦志光, 刘锦德. 工作流管理系统互操作技术研究 . 电子科技大学学报, 2002, 31(2): 145-150.
[16]	詹柔莹. 网络传输层协议的随机Petri网模型及性能分析 . 电子科技大学学报, 2001, 30(1): 13-16.
[17]	饶克谨, 苟益. 电路模拟吸收体的遗传算法设计 . 电子科技大学学报, 2000, 29(1): 54-60.
[18]	王勇, 陈光. 面向时滞测试生成的改进遗传算法 . 电子科技大学学报, 1999, 28(2): 157-161.
[19]	吴斌, 吴坚, 涂序彦. 快速遗传算法研究 . 电子科技大学学报, 1999, 28(1): 49-53.
[20]	潘中良, 陈光. 测试图形生成的遗传算法研究 . 电子科技大学学报, 1997, 26(5): 511-514.

点击查看大图

图(5) / 表(4)

计量

文章访问数: 4424
HTML全文浏览量: 1347
PDF下载量: 36
被引次数: 0

全文HTML

过程感知信息系统能够自动记录业务执行的实际过程，并生成事件日志。过程挖掘(也称为工作流挖掘)的任务，即通过分析事件日志，重现业务过程的真实执行过程^[1]，并利用该知识实现过程分析和优化^[2]、过程再造^[3]和决策支撑^[4]等。

根据文献[5]的划分，当前的过程挖掘算法可以分为3类，分别是以α算法^[6]、α++算法^[7]为代表的直接算法、以ILP Miner ^[8]为代表的启发式算法以及以遗传算法^[9-10]为代表的计算智能方法。直接算法不能处理事件日志中的噪声，所以在实际应用中采用较少。启发式算法的优点是具有抗噪能力，并且搜索结果快，但是搜索结果往往会陷入局部最优。文献[9]首次将遗传算法应用到过程挖掘中，通过定义良好的适应度函数，以及交叉、变异等过程遗传操作算子，最终得到与事件日志非常一致的过程模型。而且，遗传过程挖掘用一种统一方式解决了非自由选择结构、不可见任务、以及同名任务的挖掘。文献[10]对上述方法进行了改进，提出了一种混合自适应的遗传过程挖掘算法。总的来说，遗传过程挖掘算法有较好的抗噪能力，能够同时处理多种复杂的过程挖掘任务，具有非常好的应用价值，但缺点是运行时间过长。

目前过程挖掘领域面临的主要问题之一是对过程大数据的挖掘^[11]。以医院信息管理系统为例，它包含了门诊信息管理系统、药品信息管理系统、住院信息管理系统等数十个系统，每天产生数百兆的事件日志，其中包含上千个任务。当前的过程挖掘算法很难对这样的过程大数据进行处理。文献[12]提出了一种分布式的遗传过程挖掘算法，但计算性能并不能令人满意。文献[13]提出了一种分而治之的方法来处理过程大数据。该方法的核心思想是通过分解任务集和事件日志，快速挖掘出局部的过程模型，最后将其合并得到完整的过程模型。遗憾的是，该方法并不适合遗传过程挖掘，因为分而治之的方法可能会极大地削弱遗传算法的全局搜索能力；此外，分解后的任务子集和事件日志规模难以确定，因此很难对遗传过程挖掘算法的参数进行预先设置。

GPU是一种性价比非常高、且便于使用的高性能计算平台，目前已经在图形图像处理、人工智能、科学计算等领域得到广泛应用。本文提出了一种基于GPU的并行遗传过程挖掘算法，以解决遗传过程挖掘算法运行时间长，且不能处理过程大数据的问题。本文的创新主要包括3个方面：1)提出了一种因果矩阵在GPU上的染色体编码方法，解决了过程模型在GPU上的表示问题；2)利用GPU高并行的特点，采用大量线程对过程模型进行搜索，提高了遗传过程挖掘算法的收敛速度和搜索精度；3)充分考虑了GPU的计算原理，对遗传过程挖掘算法中计算量最大的3个操作：适应度计算、遗传交叉和遗传变异，进行了细致地并行化算法设计。

2. 基于CUDA的并行程序设计

本节先简要回顾CUDA编程模型，然后再介绍CUDA程序设计优化的几个关键点。

在CUDA编程模型中，程序被分为两个部分，分别是主机端(Host)和设备端(Device)^[15]。Host端是指在CPU上执行的程序，Device端是指在GPU上执行的并行程序。Device端程序又被称为内核函数(kernel)。Nvidia GPU采用了一种层次化的方式对线程进行组织管理。首先，线程是指令执行的最小单位；32个线程组成一个线程束(warp)。warp是线程调度的最小单位。同一warp中的线程，采用单指令多线程(single instruction multiple threads, SIMT)的模式执行。其次，若干个warp被组织成一个线程块(block)。同一block中的线程会在相同的流多处理器上执行，因此同一block中的线程能够通过共享存储器(shared memory)进行通信和同步。最后，若干个block被组织成一个网格(grid)。CUDA程序每次启动kernel时都需要创建一个grid。

在进行CUDA程序设计优化时，有以下4点需要注意^[16]：1) CUDA程序需要启动足够多的线程以隐藏指令延迟，以提升GPU的利用率；2)共享内存的带宽远远高于全局内存，因此充分利用共享内存能够大幅提升CUDA程序的性能；3)同一warp中线程的指令执行采用的是SIMT模式，因此要尽量避免分支；4)由于GPU和主机内存之间进行数据传输依靠的是PCI-E总线，数据传输的效率非常低，因此在进行CUDA程序设计时要尽量减少数据传输。

5. 结束语

本文提出了一种基于GPU的并行遗传过程挖掘算法GPM-GPU。该算法首先解决了遗传过程挖掘算法中的因果矩阵在GPU上的表示问题；其次，充分利用GPU高并行的特点，利用海量线程对过程模型进行搜索；第三，对并行遗传过程挖掘算法中的遗传交叉和遗传变异算子、以及适应度计算都进行了较好的并行设计和实现。本文通过仿真实验对提出的算法进行了验证。实验结果表明：1)本文算法中采用的优化策略是有效的，并且对所提出算法的整体性能提升能起到较大帮助；2)本文算法能够充分利用GPU计算性能，其收敛速度和搜索质量都要明显优于现有遗传挖掘算法GPM和DGPM。在两个实验数据集上，本文算法与GPM算法相比达到了36.4倍和47.2倍的执行时间加速比。以上实验结果证实了本文算法的有效性及性能。

参考文献 (16)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于图形处理器的并行遗传过程挖掘

doi: 10.3969/j.issn.1001-0548.2019.06.017

作者简介:
李龚亮(1982-), 男, 博士生, 高级工程师, 主要从事过程挖掘、信息系统、企业大数据方面的研究

通讯作者: 郭兵, E-mail:guobin@scu.edu.cn

Parallel Genetic Process Mining Based on Graphics Processing Unit

计量

基于图形处理器的并行遗传过程挖掘

doi: 10.3969/j.issn.1001-0548.2019.06.017

1. 四川大学计算机学院成都 610065

2. 中国工程物理研究院计算机应用研究所四川绵阳 621000

3. 乐山师范学院计算机科学学院四川乐山 614000

4. 成都信息工程大学控制工程学院成都 610225

作者简介:
李龚亮(1982-), 男, 博士生, 高级工程师, 主要从事过程挖掘、信息系统、企业大数据方面的研究

通讯作者: 郭兵, E-mail:guobin@scu.edu.cn

English Abstract

Parallel Genetic Process Mining Based on Graphics Processing Unit

全文HTML

1.1. 过程挖掘的相关概念

1.2. 因果矩阵

3.1. 算法框架

3.2. 因果矩阵在GPU中的染色体编码

3.3. 并行遗传交叉

3.4. 并行遗传变异

3.5. 并行适应度计算

4.1. 实验设计

4.2. 本文算法的优化策略验证

4.3. 本文算法的性能验证

目录

期刊在线

编辑办公

友情链接

留言板

基于图形处理器的并行遗传过程挖掘

doi: 10.3969/j.issn.1001-0548.2019.06.017

作者简介: 李龚亮(1982-), 男, 博士生, 高级工程师, 主要从事过程挖掘、信息系统、企业大数据方面的研究

通讯作者: 郭兵, E-mail:guobin@scu.edu.cn

Parallel Genetic Process Mining Based on Graphics Processing Unit

计量

出版历程

基于图形处理器的并行遗传过程挖掘

doi: 10.3969/j.issn.1001-0548.2019.06.017

1. 四川大学计算机学院 成都 610065 2. 中国工程物理研究院计算机应用研究所 四川 绵阳 621000 3. 乐山师范学院计算机科学学院 四川 乐山 614000 4. 成都信息工程大学控制工程学院 成都 610225

作者简介: 李龚亮(1982-), 男, 博士生, 高级工程师, 主要从事过程挖掘、信息系统、企业大数据方面的研究

通讯作者: 郭兵, E-mail:guobin@scu.edu.cn

English Abstract

Parallel Genetic Process Mining Based on Graphics Processing Unit

全文HTML

1.1. 过程挖掘的相关概念

1.2. 因果矩阵

3.1. 算法框架

3.2. 因果矩阵在GPU中的染色体编码

3.3. 并行遗传交叉

3.4. 并行遗传变异

3.5. 并行适应度计算

4.1. 实验设计

4.2. 本文算法的优化策略验证

4.3. 本文算法的性能验证

目录

期刊在线

编辑办公

友情链接

作者简介:
李龚亮(1982-), 男, 博士生, 高级工程师, 主要从事过程挖掘、信息系统、企业大数据方面的研究

1. 四川大学计算机学院成都 610065

2. 中国工程物理研究院计算机应用研究所四川绵阳 621000

3. 乐山师范学院计算机科学学院四川乐山 614000

4. 成都信息工程大学控制工程学院成都 610225

作者简介:
李龚亮(1982-), 男, 博士生, 高级工程师, 主要从事过程挖掘、信息系统、企业大数据方面的研究