Spark框架并行度推断算法

卞琛; 于炯; 修位蓉; 廖彬; 英昌甜; 鲁亮

doi:10.3969/j.issn.1001-0548.2019.04.014

Spark框架并行度推断算法

doi: 10.3969/j.issn.1001-0548.2019.04.014

卞琛^1,2,,
于炯²,
修位蓉²,
廖彬³,
英昌甜²,
鲁亮²

1.
广东金融学院互联网金融与信息工程学院广州 510521
2.
新疆大学信息科学与工程学院乌鲁木齐 830046
3.
新疆财经大学统计与信息学院乌鲁木齐 830012

基金项目:

新疆维吾尔自治区自然科学基金 2017D01A20

详细信息

作者简介:
卞琛(1981-), 男, 博士, 副教授, 主要从事内存计算、分布式系统、边缘计算等方面的研究.E-mail:bianchen0720@126.com

中图分类号: TP393.09

Parallelism Deduction Algorithm for Spark

1.
College of Internet Finance and Information Engineering, Guangdong University of Finance Guangzhou 510521
2.
College of Information Science and Engineering, Xinjiang University Urumqi 830046
3.
College of Statistics and Information, Xinjiang University of Finance and Economics Urumqi 830012

摘要: 分布式计算集群Spark宽依赖并行度取决于用户设定参数，对于不同的作业类型或数据集，硬编码的并行度参数设定难以发挥集群的最大计算能效。针对这一问题，首先对Spark作业执行方式进行深入分析，建立作业调度模型，提出宽依赖计算代价、资源空置率和溢写概率的定义；然后分析任务并行度对作业执行时间的影响，证明并行度取值具有合理区间，提出并行度推断算法的优化目标。最后根据模型定义进行目标求解，设计批处理内存计算框架的并行度推断算法（parallelism deduction algorithm，PDA），通过构建的数据总量、执行区预留比、操作闭包集合、资源表等多个基础数据，计算符合资源需求表且具有最大资源利用率和最小开销的任务并行度；PDA算法在作业的各个Stage中迭代执行，根据计算环境优化调度方案提高性能。实验表明，PDA算法提高了Spark框架的作业执行效率，针对不同类型作业均具有良好的普适性。
- 内存计算 /
- 并行度推断 /
- 性能优化 /
- Spark /
- 溢写概率
Abstract: Inappropriate parallelism parameter may result in the performance degradation on in-memory computing framework. For this issue, we analyze the execution mechanism of Spark jobs, establish job scheduling model, and give the definition of the computing cost, resource idle rate and spill probability. Based on the analysis of the relationship between parallelism parameter and job execution efficiency, the optimization objective of algorithm is given. To solve the problem of optimizing, a parallelism deduction algorithm (PDA) for in-memory computing framework is proposed. Firstly, PDA calculates the best parallelism of job execution by size of input data, worker computing resource and additional overhead of spill, and thus enhances the resource utilization of cluster and speeds up the state synchronization of job execution. The algorithm optimizes the task scheduling for each Stage, accelerates the job execution and improves the calculation efficiency. Experiment results demonstrate that the proposed algorithm can improve the computational efficiency of in-memory computing framework and accelerate data-intensive and compute-intensive applications.
- in-memory computing /
- parallelism deduction /
- performance optimization /
- Spark /
- spill probability
图 1 Spark作业执行流程图

下载: 全尺寸图片幻灯片

图 2 传统Spark的作业执行效率

下载: 全尺寸图片幻灯片

图 3 空间预留比取值测试

下载: 全尺寸图片幻灯片

图 4 WordCount对比实验

下载: 全尺寸图片幻灯片

图 5 PageRank对比实验

下载: 全尺寸图片幻灯片

表 1 测试数据集列表

数据集作业节点数边数

Facebook Social Network Facebook 4 039 88 234

web-Google Google 875 713 5 105 039

Cit-Patents Cit-Pts 3 774 768 16 518 948

下载: 导出CSV

[1]	ZAHARIA M, CHOWDHURY M, DAS T, et aI. Fast and interactive analytics over hadoop data with spark[J]. USENIX Login, 2012, 37(4):45-51. http://cn.bing.com/academic/profile?id=3c1b1094fe24d5018bb88b57f7d6636e&encoded=0&v=paper_preview&mkt=zh-cn
[2]	ZAHARIA M, XIN R, WENDELL P, et al. Apache Spark:A unified engine for big data processing[J]. Communications of ACM, 2016, 59(11):56-65. doi: 10.1145/3013530
[3]	XIN R, ROSEN J. Project Tungsten: Bringing Apache Spark closer to bare metal[EB/OL].[2016-03-21]. https://databricks.com/blog/2015/04/28/project-tungsten-bringing-spark-closer-to-bare-metal.html.
[4]	WENDELL P, ZAHARIA M, XIN R. Spark memory management overview[EB/OL].[2016-05-21]. http://spark.apache.org/docs/latest/tuning.html#memory-management-overview.
[5]	SENGUPTA B, DAS A. Use of SIMD-based data parallelism to speed up sieving in integer-factoring algorithms[J]. Applied Mathematics and Computation, 2017, 293(1):204-217. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=c8573dfaa1e15120ff4f624541600c74
[6]	LI Hao-yuan, GHODSI A, ZAHARIA M, et al. Tachyon: Reliable, memory speed storage for cluster computing frameworks[C]//The 2014 ACM Symposium on Cloud Computing. New York: ACM, 2014: 1-15. https://cs.stanford.edu/~matei/papers/2014/socc_tachyon.pdf
[7]	ARMBRUST M, XIN R S, LIAN C, et al. Spark SQL: Relational data processing in spark[C]//The 2015 ACM SIGMOD International Conference on Management of Data. New York: ACM, 2015: 1383-1394. http://people.csail.mit.edu/matei/papers/2015/sigmod_spark_sql.pdf
[8]	LI Jin-gui, LIN Xue-lian, CUI Xiao-long, et al. Improving the shuffle of Hadoop mapreduce[C]//The 13th IEEE International Conference on Cloud Computing Technology and Science. Piscataway, NJ: IEEE, 2013: 266-273. https://ieeexplore.ieee.org/document/6753807
[9]	GUO Yan-fei, RAO Jia, ZHOU Xiao-bo. IShuffle: Improving Hadoop performance with shuffle-on-write[C]//The 10th International Conference on Autonomic Computing. Berkley, CA: USENIX Association, 2013: 107-117. https://www.usenix.org/conference/icac13/technical-sessions/presentation/guo
[10]	GUFLER B, AUGSTEN N, REISER A, et al. Load balancing in MapReduce based on scalable cardinality estimates[C]//The 28th IEEE International Conference on Data Engineering(ICDE). Piscataway, NJ: IEEE, 2012: 522-533. https://ieeexplore.ieee.org/document/6228111/
[11]	JURE L. Stanford network analysis project[EB/OL].[2015-09-21]. http://snap.stanford.edu/.

[1]	张先超, 任天时, 赵耀, 樊锐. 移动边缘计算时延与能耗联合优化方法 . 电子科技大学学报, 2022, 51(5): 737-742. doi: 10.12178/1001-0548.2021244
[2]	刘承鹏, 张蔺, 陈智, 李少谦. 下行协作NOMA系统中断概率分析与优化 . 电子科技大学学报, 2022, 51(5): 675-680. doi: 10.12178/1001-0548.2022103
[3]	钱吉裕, 魏涛, 王韬, 李秋燕, 吴传贵. 高性能硅基微流道优化方法研究 . 电子科技大学学报, 2020, 49(1): 92-97. doi: 10.12178/1001-0548.2018250
[4]	王艳芬, 丛潇雨, 孙彦景. 一种稀疏度自适应超宽带信道估计算法 . 电子科技大学学报, 2017, 46(3): 498-504. doi: 10.3969/j.issn.1001-0548.2017.03.004
[5]	何怀文, 傅瑜. 批量到达下的IaaS云计算中心服务性能评价 . 电子科技大学学报, 2015, 44(3): 445-450. doi: 10.3969/j.issn.1001-0548.2015.03.022
[6]	赵勇, 李有福, 李小龙, 刘鹏, 田文洪. 科学工作流与高性能计算集成方案 . 电子科技大学学报, 2014, 43(3): 457-463. doi: 10.3969/j.issn.1001-0548.2014.03.024
[7]	彭博, 谌勇, 刘东权. 超声弹性成像零相位估计算法并行化研究 . 电子科技大学学报, 2014, 43(4): 618-623. doi: 10.3969/j.issn.1001-0548.2014.04.026
[8]	王磊, 卢显良, 陈明燕, 张伟, 张顺生. 基于多核计算的雷达并行仿真结构 . 电子科技大学学报, 2014, 43(1): 113-118. doi: 10.3969/j.issn.1001-0548.2014.01.019
[9]	张运生, 姚远, 孙世新, 何志海. 无线视频通信跨层资源分配及性能优化 . 电子科技大学学报, 2013, 42(1): 63-68. doi: 10.3969/j.issn.1001-0548.2013.01.015
[10]	陈飞, 曹政, 王凯, 胡农达, 安学军. 高性能计算节点中的同步操作加速引擎设计 . 电子科技大学学报, 2012, 41(1): 92-97. doi: 10.3969/j.issn.1001-0548.2012.01.018
[11]	黄艳, 古志民. 帮助线程预取性能的分析与优化 . 电子科技大学学报, 2012, 41(1): 85-91. doi: 10.3969/j.issn.1001-0548.2012.01.017
[12]	吴大鹏, 武穆清, 甄岩, 孙兵. 联合竞争窗口和发送调整策略优化WLAN性能 . 电子科技大学学报, 2010, 39(1): 33-36. doi: 10.3969/j.issn.1001-0548.2010.01.008
[13]	赖生建, 王秉中, 黄廷祝. 共享内存系统中高效并行FDTD计算方案 . 电子科技大学学报, 2010, 39(5): 680-683. doi: 10.3969/j.issn.1001-0548.2010.05.007
[14]	刘瑜, 梁正, 杨梓强. 混合并行技术在FDTD计算中的应用研究 . 电子科技大学学报, 2009, 38(2): 222-226. doi: 10.3969/j.issn.1001-0548.2009.02.16
[15]	陈国东, 武穆清. UWB脉冲正交综合优化设计算法 . 电子科技大学学报, 2008, 37(5): 660-663.
[16]	孙淼, 姚列明, 霍中生, 严一民. 电脑机箱散热性能优化问题的研究 . 电子科技大学学报, 2007, 36(1): 75-76,115.
[17]	杨思春. 一种改进的句子相似度计算模型 . 电子科技大学学报, 2006, 35(6): 956-959.
[18]	鲁旭, 马争, 缪敬. 通信设备中内存管理优化 . 电子科技大学学报, 2003, 32(2): 121-124.
[19]	任立勇, 卢显良. 基于串-并行计算BP网络拓扑结构的研究与实现 . 电子科技大学学报, 2000, 29(2): 197-200.
[20]	罗宁, 陈尚勤, 吴昱静. 基于军标的短波信道语音质量估计算法性能分析 . 电子科技大学学报, 1998, 27(4): 347-350.

点击查看大图

图(5) / 表(1)

计量

文章访问数: 5029
HTML全文浏览量: 1307
PDF下载量: 80
被引次数: 0

全文HTML

为进一步提高内存计算框架的数据处理效率和集群资源利用率，优化作业执行性能，本文选取开源内存计算框架Spark^[1]为研究对象。Spark中宽依赖Stage的任务并行度取决于用户设定参数，系统读取并行度参数后发送相应的任务到worker执行，因此用户参数设定的合理性将直接决定作业执行效率和计算时长^[2]。然而，程序员仅能通过经验设定并行度参数，难以最大化发挥计算集群的计算能力，因为注册worker数量、可用资源量、作业类型和数据分布等因素都将影响并行度合理性。即使优秀的程序员能够将并行度参数定位到最优区间，也不得不为不同的作业频繁修改参数，重复性工作既无法保证精准度，也降低了生产效率。为解决以上问题，本文主要工作有以下3个方面：

1) 首先分析Spark框架作业宽、窄依赖Stage划分及执行过程，建立模型对作业计算代价、资源利用率、作业执行附加开销等指标进行评估。

2) 在作业调度模型的基础上，对并行度推断算法进行问题定义，为后期算法设计确定优化目标。

3) 划分问题的已知域与未知域，通过已知域构建算法基础数据，求解未知域提出并行度推断算法，并分析算法与优化目标的符合度。

1. 相关工作

高效率、低延迟的内存计算框架得到工业界和学术界的一致认可，越来越多的企业级应用采用Spark作为底层框架，而研究人员也针对Spark提出了不同的性能优化方法。

内存计算框架的最大特点就是充分利用内存来提高计算效率，一些研究人员在提高Spark框架内存利用率的问题上提出了自己的优化策略。文献[3]提出Tungsten系统，由于Spark框架运行于JVM(java virtual machine)之上，而java对象需要占用源数据近2倍的内存空间，因此Tungsten提出数据堆外存储方式，避免java对象的空间浪费，提高内存空间利用率。此外，堆外存储直接存储二进制对象，无须序列化与反序列化的开销，还能够有效避免JVM的GC(garbage collection)回收效率问题。文献[4]提出内存分区动态划分方法，将Spark内存计算区与缓存区的固定比例划分(通过用户参数设定)修改为模糊边界的动态划分，对不同的作业对计算区与缓存区的空间需求量予以最大保障，从而加速作业执行。文献[5]提出Cache-friendly算法，建立三级存储的协调管理架构，提高内存数据命中率，有效避免缺页开销。文献[6]提出内存文件系统Alluxio(原名Tachyon)，将内存的存储功能计算框架独立出来，通过更细的分工达到更高的效率。Alluxio的兼容性更好，对上层计算框架的支持度也更高。

另外一些研究人员关注内存计算框架的性能优化方法，文献[7]提出Catalyst查询优化器，其目标是生成更高效的逻辑执行计划，Catalyst分析用户定义的所有操作，采用基于关系代数的等价变换方法，将高开销的操作替换为低成本操作，并在不影响作业执行结果的前提下调整操作执行顺序，从而生成更为高效的执行计划。文献[8]发现Shuffle过程是Spark框架的重要瓶颈，因此将Shuffle从作业执行中分离形成独立过程，开发优化I/O且更轻量级的服务组件，降低作业中的Shuffle过程开销。文献[9]同样关注Shuffle过程优化，将多对多的网络数据传输方式由推模式修改为拉取模式，优化调度器的负载均衡，使作业的整体执行时间缩短了20%。

本文从批处理作业执行机制入手，探索并行度与作业执行效率的关系，与已有研究工作的最大不同之处在于，建立作业调度模型分析硬编码并行度产生效率瓶颈的原因，研究符合集群硬件资源并具有普适性的自动化并行度推断算法，将多个stage使用相同并行度参数优化为每个阶段独立生成最优并行度，从而优化集群计算效率、缩减作业执行时长。

3. 并行度推断算法

本节基于模型的定义分析，提出Spark框架并行度推断算法。

3.1. 环境定义

环境定义是算法验证准确性的的重要保障，Spark系统2.0版的参数设置共有167种，不同的参数设定将对系统效率产生不同的影响，因此本文方法采用固定的一套配置参数，以保障算法执行环境的一致性。此外，Shuffle过程的分区函数将决定每个宽依赖Stage任务的输入数据量，由于不了解真实的数据分布，数据倾斜将导致宽依赖Stage的执行延时增加，从而无法准确评估任务并行度与作业执行效率的关系。为避免数据倾斜对作业执行时间的影响，本文采用文献[10]提出的closer系统进行数据均衡分配，采用consolidation技术完成数据分区，以减少Bucket写入开销，最大程度减少数据倾斜和分区写入对作业执行时间的影响，从而为最优并行度的精确计算提供保障。

3.2. 构建基础数据

基础数据分为系统变量和介入参数2类。系统变量是Spark框架的原生数据，由Spark控制台、资源需求表和配置参数提供，主要包括执行作业的工作节点总数m，每个Worker的CPU核数c和可用内存量r，执行区划分比$\varphi $。介入参数是并行度推断算法必需的附加数据，生成方式是在作业执行过程中统计或由用户自行定义。算法的介入参数主要包括：

1) 前续Stage的中间结果数据总量S。数据总量S是对前续RDD所有分区大小进行累加，由于Spark框架中作业的各Stage同步执行，因此具备精确统计的条件。

2) 执行区预留比u。参数u($u \in [0, 0.5]$)表示在执行区内存中计算缓冲区所占的比例，是算法唯一依赖的用户参数。定义预留比的主要目的是防止拉取数据溢出，频繁引发GC影响执行效率。由于用户了解执行作业类型和输入数据量，因此能够为执行区预留比指派相对合理的值。需要说明的是，执行区预留比u仅是一个参数，并不进行内存空间划分，对Spark框架原生的内存管理策略不产生任何影响。

3) 操作闭包集合TC。定义二元组tc_i= < trans, closure > 表示第i个Stage的操作和闭包。在作业调度时，从DAGScheduler中读取各Stage操作和闭包添加到TC集合。TC集合的作用是判定作业是否存在迭代，以防止无效的并行度推断。由于大多数机器学习算法都要多轮迭代才能收敛，而每轮迭代的数据量变化不大，因此每轮推断的并行度也基本相同，即使并行度推断算法的时空复杂度较低，也会因多轮迭代的累积效应产生延迟，因此TC集合是并行度算法是否迭代执行的重要依据。

3.3. 并行度推断算法

下面对2.2节定义的优化目标进行求解，提出并行度推断算法，以此在宽依赖Stage分配适当任务数量，算法的主要思想如下：

1) 迭代判定。将宽依赖Stage的操作和闭包生成二元组，在TC集合中进行检索，若有匹配项则直接使用上次推断的并行度h，跳转至步骤5)；若无匹配项则执行步骤2)。

2) 读取基础数据。将前续RDD的各分区大小累加求得数据总量S，从Spark控制台读取worker总数m，从资源需求表读取Worker的CPU核数c和内存量r，从系统参数中执行区划分比$\varphi $，在用户参数中读取空间预留比u。

3) 计算数据总量S与可用内存量的大小关系，若$S \leqslant (mr\varphi (1 - u))$，则只需1轮任务分配即可计算完成，生成并行度$h = mc$，跳转至步骤5)。否则执行步骤4)。

4) 计算任务执行轮数，将数据总量S与可用内存量$(mr\varphi (1 - u))$相除，取商并向上取整，得到任务执行轮数Round，生成并行度$h = mc \times {\rm{Round}}$。

5) 任务调度。将h个任务分配至所有工作节点，算法结束。

PDA算法的执行过程并行度推断算法：

输入：工作节点个数m

    单节点分配的核心数c

    单节点的内存分配量r

    内存划分比$\varphi $

    空间预留比u

    操作闭包集合TC

输出：任务并行度h

    tc_i=getCurrentTrans(); /*获取当前Stage的操作和闭包生成二元组*/

    left=TC.findLeftNeighbor(tc_i); /*查找与tc_i相同的最近左邻居*/

    rigth=TC.findRightNeighbor(tc_i); /*查找与tc_i相同的最近右邻居*/

    if TC.sub(left, tc_i)==TC.sub(tc_i, right) then /*如果TC从left取到tc_i的子集与从tc_i取到right的子集相同，判定为迭代*/

    return; /*沿用已有的任务并行度*/

else

    S=gatherInput(); /*计算输入数据总量*/

    if S < =mr$\varphi $(1-u) then /*若数据总量小于等于可用拉取内存总量*/

    h=mc; /*任务并行度等于工作节点数乘以CPU核心数*/

    return h;

else

    round=ceiling(S/( mr$\varphi $(1-u))); /*计算任务执行轮数*/

    h= mc×round; /*任务并行度等于工作节点数与核心数、执行轮数的乘积*/

    return h;

  end if

end if

定理2   算法求解的并行度h符合2.2节定义的优化目标。

证明：首先证明算法使作业的溢写概率为零，即$(\forall j \in w){P_j} = 0$。由于使用closer系统进行数据均衡，则每个任务的输入数据量为：

$${\rm{inpu}}{{\rm{t}}_{{\rm{tas}}{{\rm{k}}_i}}} = \frac{S}{h}$$ (17)

所有输入数据均从前续Stage填充的Bucket拉取，因此${\rm{inpu}}{{\rm{t}}_{{\rm{tas}}{{\rm{k}}_i}}}$为当前Stage需要拉取的Bucket总容量。由算法步骤3)和步骤4)的执行过程可知：

$$h \geqslant \frac{S}{{r\varphi (1 - u)}}c$$ (18)

将式(17)代入式(18)可得：

$${\rm{inpu}}{{\rm{t}}_{{\rm{tas}}{{\rm{k}}_i}}} \leqslant \frac{{r\varphi (1 - u)}}{c}$$ (19)

由于$u \in [0, 0.5]$，因此可得符合$(\forall j \in w){P_j} = 0$的表达式：

$$({\rm{inpu}}{{\rm{t}}_{{\rm{tas}}{{\rm{k}}_i}}} \times c) \leqslant r\varphi $$ (20)

对于优化目标1，算法步骤3)步骤4)所计算的并行度h均为$h = mc \times {\rm{Round}}$(步骤3)的执行轮数Round=1)，因此集群的空置率为零，即V_stage=0。而对于优化目标2，步骤4)求解的执行轮数为大于等于数据总量与可用内存量相除所得商的最小整数，因此算法求解的并行度h为符合约束条件的最小值，附加开销也最小。证毕。

在Spark原生系统中，并行度由用户根据经验设置，经验差异导致的性能差异不可规避。而通过引入并行度推断算法，提高的并行度设定的准确度和适应性，消除了由并行度设定误差导致的延时累积，提高了作业执行效率。PDA算法使作业中多个宽依赖Stage的并行度可以不同，每个Stage都由推断算法生成最优并行度，从而有效地提高计算性能。此外，算法全部过程均为简单算术运算且仅执行常数次，因此时间复杂度为O(1)。数据总量S的统计汇总是算法中唯一具有延时的操作，而根据TC集合所做的迭代判定，能够大大减少数据总量的统计次数，从而将算法的负面影响降至最低。

5. 结束语

本文针对批处理内存计算框架中任务并行度的合理性问题，首先分析Spark框架作业宽、窄依赖Stage划分及执行过程，对作业计算代价、资源利用率、作业执行附加开销等指标进行评估。然后在模型定义和证明的基础上，提出并行度推断算法的优化目标。最后通过目标定义，构建算法基础数据，提出并行度推断算法，并证明了算法与优化目标的匹配度。

下一步工作集中在以下两个方面：

1) 对连续窄依赖的流水线机制进行分析，探索具有最小同步代价的作业执行机制。

2) 对宽窄依赖之间的Shuffle过程进行分析，设计异构环境下适应节点计算能力的Shuffle策略。

参考文献 (11)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

Spark框架并行度推断算法

doi: 10.3969/j.issn.1001-0548.2019.04.014

作者简介:
卞琛(1981-), 男, 博士, 副教授, 主要从事内存计算、分布式系统、边缘计算等方面的研究.E-mail:bianchen0720@126.com

Parallelism Deduction Algorithm for Spark

计量

Spark框架并行度推断算法

doi: 10.3969/j.issn.1001-0548.2019.04.014

1. 广东金融学院互联网金融与信息工程学院广州 510521

2. 新疆大学信息科学与工程学院乌鲁木齐 830046

3. 新疆财经大学统计与信息学院乌鲁木齐 830012

作者简介:
卞琛(1981-), 男, 博士, 副教授, 主要从事内存计算、分布式系统、边缘计算等方面的研究.E-mail:bianchen0720@126.com

English Abstract

Parallelism Deduction Algorithm for Spark

1. College of Internet Finance and Information Engineering, Guangdong University of Finance Guangzhou 510521

2. College of Information Science and Engineering, Xinjiang University Urumqi 830046

3. College of Statistics and Information, Xinjiang University of Finance and Economics Urumqi 830012

全文HTML

2.1. 作业调度模型

2.2. 并行度推断算法的问题定义

3.1. 环境定义

3.2. 构建基础数据

3.3. 并行度推断算法

4.1. 实验环境

4.2. 并行度测试

4.3. 参数评估实验

4.4. 对比实验

目录

期刊在线

编辑办公

友情链接

数据集	作业	节点数	边数
Facebook Social Network	Facebook	4 039	88 234
web-Google	Google	875 713	5 105 039
Cit-Patents	Cit-Pts	3 774 768	16 518 948

留言板

Spark框架并行度推断算法

doi: 10.3969/j.issn.1001-0548.2019.04.014

作者简介: 卞琛(1981-), 男, 博士, 副教授, 主要从事内存计算、分布式系统、边缘计算等方面的研究.E-mail:bianchen0720@126.com

Parallelism Deduction Algorithm for Spark

计量

出版历程

Spark框架并行度推断算法

doi: 10.3969/j.issn.1001-0548.2019.04.014

1. 广东金融学院互联网金融与信息工程学院 广州 510521 2. 新疆大学信息科学与工程学院 乌鲁木齐 830046 3. 新疆财经大学统计与信息学院 乌鲁木齐 830012

作者简介: 卞琛(1981-), 男, 博士, 副教授, 主要从事内存计算、分布式系统、边缘计算等方面的研究.E-mail:bianchen0720@126.com

English Abstract

Parallelism Deduction Algorithm for Spark

1. College of Internet Finance and Information Engineering, Guangdong University of Finance Guangzhou 510521 2. College of Information Science and Engineering, Xinjiang University Urumqi 830046 3. College of Statistics and Information, Xinjiang University of Finance and Economics Urumqi 830012

全文HTML

2.1. 作业调度模型

2.2. 并行度推断算法的问题定义

3.1. 环境定义

3.2. 构建基础数据

3.3. 并行度推断算法

4.1. 实验环境

4.2. 并行度测试

4.3. 参数评估实验

4.4. 对比实验

目录

期刊在线

编辑办公

友情链接

作者简介:
卞琛(1981-), 男, 博士, 副教授, 主要从事内存计算、分布式系统、边缘计算等方面的研究.E-mail:bianchen0720@126.com

1. 广东金融学院互联网金融与信息工程学院广州 510521

2. 新疆大学信息科学与工程学院乌鲁木齐 830046

3. 新疆财经大学统计与信息学院乌鲁木齐 830012

作者简介:
卞琛(1981-), 男, 博士, 副教授, 主要从事内存计算、分布式系统、边缘计算等方面的研究.E-mail:bianchen0720@126.com

1. College of Internet Finance and Information Engineering, Guangdong University of Finance Guangzhou 510521

2. College of Information Science and Engineering, Xinjiang University Urumqi 830046

3. College of Statistics and Information, Xinjiang University of Finance and Economics Urumqi 830012