An Innovative Memory Prediction Approach for Mapreduce Job

LUO Yong-gang; CHEN Xing-shu; YANG Lu

doi:10.3969/j.issn.1001-0548.2016.06.019

It is difficult to predict the amount of memory for a mapreduce job. Based on the fact that Java virtual machine (JVM) divides the heap space managed by the JVM garbage collector into young and old generations, a generational memory prediction method is put forward. We build up a function that models the relationship between the amount of young generation and the total garbage collection time, and then we use a constrained nonlinear optimization model to find the rational footprint of young generation. The memory model for the map phase is established, the phase of a mapreduce job is reduced, then a relationship between map/reduce tasks' performance (runtime of a task) and the amount of memory of the old generation is set up, and finally, the reasonable old generation memory size is obtained. The experimental results show that the proposed approach can accurately predict the memory size of map and reduce the tasks of a mapreduce job. In comparison with the default configuration, the proposed approach can give us 6 times performance improvement than default settings.

HTML

Apache Hadoop^[1](包含HDFS和mapreduce两个核心组件，本文只考虑mapreduce，因此在没有特殊说明情况下Hadoop和mapreduce等价使用)是谷歌公司提出的mapreduce编程模式的开源版本，得到了学术界、工业界的大力支持。随着mapreduce应用规模不断扩大，为Hadoop集群分配合理的资源以及优化mapreduce应用的运行性能一直是研究热点^[2]。Hadoop官方路线图规划在Hadoop3.0版本中增加了内存自动预测机制^[3]。

已有大量研究工作关注mapreduce性能与配置参数的关系。这些研究的核心思想是通过构建性能模型获得特定作业在某个配置下的运行时间，然后使用优化算法获得最优的配置参数。文献[4]使用基于代价的方式构建性能模型^[5]，使用递归随机搜索算法找到优化的配置参数。文献[6]的性能模型与文献[4]类似，但使用的是遗传算法寻找最优配置参数。文献[7]未构建性能模型，通过修改hadoop框架在线获得任务运行时间，使用拉丁超立方体抽样方法进行配置参数采样，使用智能爬山算法搜索最优配置参数。这些研究存在以下不足：1)构建性能模型增加了不必要的复杂度；2)搜索算法需要限定内存资源配置参数的搜索空间，增加用户使用难度。

Hadoop应用程序运行在Java虚拟机之上，JVM的配置对Hadoop应用的性能和稳定性有直接影响。文献[8]通过定期采样作业的内存使用量来预测内存的使用，没有说明预测的内存配置是否提升作业性能。文献[9]通过随机森林算法优化JVM配置，但给出的优化配置的年轻代与年长代比例仅有1:2与1:8这两种配置。文献[10-11]没有考虑mapreduce作业的特殊性，也没有给出JVM内存大小的建议。

为解决这些问题，根据JVM分代内存管理原理，结合年轻代和年长代对mapreduce作业性能影响不同，提出分代内存预测方法，具体包括：

1)使用回归模型建模年轻代垃圾回收平均暂停时间，将寻找合理的年轻代大小问题转换为非线性优化问题，并设计求解算法；

2)分析map任务和reduce任务的性能与内存配置的关系，建立内存模型，通过内存模型求解年长代内存需求。不需要构建性能模型和使用优化算法，也不需要用户指定内存范围。

1. 分代内存大小预测方法

1.1. 分代内存预测

Java虚拟机使用分代内存管理^[12]，将管理的堆内存划分为年轻代(young)、年长代(old)两个区域。按照一定的比例(如默认为8:1)，JVM将年轻代进一步划分为eden、from和to这3个区域。

JVM首先尝试将Java对象分配在eden区域，仅当Java对象的大小超过某个阈值时，JVM才直接从年长代分配该对象所需内存。当eden或年长代内存空间不够时，分别触发minor GC或major GC，即分别回收年轻代或年长代中不再被使用的对象。执行垃圾回收期间，JVM暂停Java应用程序的运行。通常minor GC暂停时间较短，major GC暂停时间较长。

一个mapreduce作业由多个map任务和reduce任务组成。每个任务可以看成是一个Java应用。map或reduce任务分配的对象可以分为以下两类。

1)临时对象：具有单个对象占用空间小、有效时间短(即有效期通常不会超过连续两次minor GC的时间)、对象数量庞大等特征。

2)任务缓存对象：map任务或reduce任务运行期间用于缓存数据的对象通常很大，且几乎在整个任务生命周期内均有效。

第1类对象分配在eden，且minor GC后被回收，因此eden内存空间可以被重用。第2类对象可以进一步分为mapreduce框架缓存对象(S_mr)和用户定义的缓存对象(S_u)。S_mr的1个实例是mapreduce框架用于缓存map函数输出记录的对象。用户缓存对象表示用户在自定义的map类或reduce类中定义的数据缓存对象。例如使用mapreduce实现K-means聚类算法时，reduce函数需要缓存属于同一簇的原始数据，以便从中选择新的聚类中心。S_u与用户设计的map函数和reduce函数直接相关，不具有通用性，且大量mapreduce作业的map任务和reduce任务的S_u较小，因此不予考虑。

因此，本文使用以下2种思路分别预测年轻代与年长代的大小。

1)年轻代：根据map任务或reduce任务的运行时间确定期望的minor GC总时间，然后寻找满足该时间要求的eden最小值；

2)年长代：年长代主要分配mapreduce框架的缓存对象，缓存空间的大小会影响map任务与reduce任务的运行性能，因此需要根据map任务与reduce任务的数据流和工作流来计算年长代的大小。

1.1.1. 预测年轻代内存大小

假设任务的运行时间为T_task，设置任务minor GC总暂停时间占任务运行时间的比值为p，则希望的minor GC总时间${T_{{\rm{gc}}}} = p{T_{{\rm{task}}}}$。假设eden大小为e，当任务处理程序不变，且处理数据相当的情况下，任务运行过程中第1类对象的总大小s基本保持不变，则寻找合理的eden大小问题可以转换为满足以下约束条件的优化问题。

最小化目标函数f(e)=e，约束条件为：

式中，e_train表示minor GC回归模型训练数据集中eden的取值；$g(e, s)$表示在已知第1类对象的总大小s和给定的eden条件下minor GC的总时间。约束条件的核心是minor GC时间小于等于计算的期望时间T_gc。

通过实验发现，在其他条件不变的情况下，增加eden将减少minor GC总时间，减少eden会增加minor GC总时间。基于上述发现，设计算法1来求解上述优化问题。算法1的主要思路为：随机选择eden大小，计算对应的GC时间，大于期望值时增加eden，小于期望值时减少eden，直到找到接近期望时间所对应的eden或超过设定的最大值或最小值为止。算法1中l和u与式(1)含义相同，m₀表示每次增加或减少内存的大小。

算法1：eden搜索算法

输入：g(e, s)，l，u，m₀，T_gc

输出：预测eden的大小

1)随机选择x₁，使得$l \le {x_1} \le u$，将x₁设置为起始搜索点

2)求${T_1} = g({x_1}, s)$，如果${T_1} < {T_{{\rm{th}}}}$，${\rm{step}} = - {m_0}$，执行步骤3)；如果${T_1} > {T_{{\rm{th}}}}$，${\rm{step}} = {m_0}$，执行步骤4)；否则返回x₁

3)${x_2} = {x_1} + {\rm{step}}$，求${T_2} = g({x_2}, s)$，如果${T_2} < {T_{{\rm{th}}}}$，依次检查${x_3}, {x_4}, \cdots $，直到x_i使得${T_i} \le {T_{{\rm{th}}}}$，返回x_i-1；如果${T_2} \le {T_{{\rm{th}}}}$，返回x₁

4)${x_2} = {x_1} + {\rm{step}}$，求${T_2} = g({x_2}, s)$，如果${T_2} > {T_{{\rm{th}}}}$，依次检查${x_3}, {x_4}, \cdots $，直到${x_i}$使得${T_i} \le {T_{{\rm{th}}}}$，返回${x_i}$；如果${T_2} \le {T_{{\rm{th}}}}$，返回${x_2}$。

1.1.2. 预测年长代内存大小

mapreduce提供了多个配置参数分别设置map任务和reduce任务的缓存大小。这些配置参数设置不合理时会导致map任务和reduce任务发生多次溢写操作，直接影响任务性能和作业性能。

map任务或reduce任务缓存对象用${S_{{\rm{mr}}}}$表示，在整个任务运行期间有效，因此这些对象将驻留年长代，通过计算${S_{{\rm{mr}}}}$的大小即可获得年长代的大小。

对map任务，${S_{{\rm{mr}}}}$缓存map函数输出记录；对reduce任务，${S_{{\rm{mr}}}}$缓存shuffle数据。单个map任务或reduce任务的${S_{{\rm{mr}}}}$大小需要结合任务的数据流和工作流确定。

同一个mapreduce作业的所有map任务和reduce使用相同的配置。因此需要根据同一作业下不同map任务和reduce任务的期望大小计算合理的统一值。

1) map任务的${S_{{\rm{mr}}}}$

map函数输出记录序列化后保存在S_rd中，该记录的分区号及在S_rd中的地址索引保存在S_idx中，因此S_mr为S_rd与S_idx之和。第i个map任务的记录索引缓存$S_{{\rm{idx}}}^{(i)}$和记录数据缓存$S_{{\rm{rd}}}^{(i)}$通过下文计算方法获得。$S_{{\rm{idx}}}^{(i)}$和$S_{{\rm{rd}}}^{(i)}$能确保第i个map不发生溢写操作，因此分别选择$S_{{\rm{idx}}}^{(i)}$和$S_{{\rm{rd}}}^{(i)}$的最大值S_idx和S_rd作为统一配置，可以确保每个任务均不发生溢写。定义P_idx表示map任务的索引数据所占百分比，则有：

此时必然有${S_{{\rm{idx}}}} \ge S_{{\rm{idx}}}^{(i)}, {S_{{\rm{rd}}}} \ge S_{{\rm{rd}}}^{(i)}$，即每个map任务均不会执行溢写操作。为了避免发生内存溢出错误，当S_idx和S_rd的占用比例超过β时触发溢写操作，为了避免溢写发生，实际分配的缓存大小为计算所得缓存大小${S'_{{\rm{mr}}}}$除以β。为了避免内存资源浪费，将β设置为接近于1的值，设置为0.99，因此有：

2) reduce任务的S_mr

reduce任务将拷贝的数据缓存到S_R中，只要S_R大于每个任务的实际缓存数据大小，reduce任务就不会发生溢写，从而获得最佳运行性能。设S_R^(j)表示第j个reduce任务的内存需求，为了确保每个reduce任务不发生溢写操作，S_R必须取S_R^(j)的最大值，即：

2. 求解g(e, s)

设每次minor GC平均暂停时间为t_gc，通过实验数据分析发现t_gc是e的函数，即：

$\psi $可以通过回归建模获得。当已知年轻代对象的总大小s和eden大小e时，可计算出需要执行的minor GC的次数N_gc，即：

则minor GC的总时间估计值g(e, s)为：

式(7)为在年轻代对象总需求不变、给定eden大小的条件下，minor GC的总暂停时间。

将式(5)、式(6)带入式(7)，得：

s可以通过对minor GC日志信息进行统计分析获得，即：

式中，O_i表示第i-1次minor GC与第i次minor GC期间分配在年轻代对象的大小；n表示minor GC发生的次数。使用式(8)可以计算任务在某个eden大小下的GC暂停时间。

5. 结束语

本文提出一种分代内存大小的预测方法。根据JVM的分代内存管理特点，分别使用不同的方法预测JVM不同分代内存区域的大小。本文提出的分代内存预测方法综合考虑了mapreduce层和JVM层的内存配置，是一种更为全面mapreduce作业内存配置参数优化方法。测试结果表明，与默认配置相比，本文给出的内存优化配置平均性能提升至6倍，最大达到8倍。与starfish相比，本文提出的方法在提供更好的性能前提下，使用更少的内存资源。

Reference (17)

[1]	DEAN J, GHEMAWAT S. Mapreduce:Simplified data processing on large clusters[C]//Proceedings of the 6th Conference on Eperating Systems Design and Implementation. Berkeley, CA, USA:USENIX Association, 2004, 6:137-150.
[2]	POLATO I, RÉ R, GOLDMAN A. A comprehensive view of Hadoop research-a systematic literature review[J]. Journal of Network and Computer Applications, 2014, 46(): 1-25. doi: 10.1016/j.jnca.2014.07.022
[3]	GERA S. Derive heap size or mapreduce.*.memory.mb. automatically[EB/OL].[2014-03-08]. https://issues.apache.org/jira/browse/MAPREDUCE-5785.
[4]	HERODOTOU H, BABU S. Profiling, what-if analysis, and cost-based optimization of mapreduce programs[J]. Proceedings of the VLDB Endowment, 2011, 4(11): 1111-1122.
[5]	HERODOTOU H. Hadoop performance models[EB/OL].[2014-12-04]. http://arxiv.org/pdf/1106.0940v1.pdf.
[6]	LIU C, ZENG D, YAO H, et al. MR-COF:a genetic mapreduce configuration optimization framework[M].[S.l.]:Springer International Publishing, 2015:344-357.
[7]	LI M, ZENG L, MENG S, et al. MRONLINE:Mapreduce online performance tuning[C]//Proceedings of the 23rd International Symposium on High-Performance Parallel and Distributed Computing. Vancouver, Canada:ACM, 2014:165-176.
[8]	XU L, LIU J, WEI J. FMEM:a fine-grained memory estimator for mapreduce jobs[C]//Proceedings of the 10th International Conference on Autonomic Computing. California, USA:USENIX in Cooperation with ACM SIGARCH, 2013:65-68.
[9]	SINGER J, KOVOOR G, BROWN G. Garbage collection auto-tuning for java mapreduce on multi-cores[J]. ACM SIGPLAN Notices, 2011, 46(11): 109-118. doi: 10.1145/2076022
[10]	KEJARIWAL A. A tool for practical garbage collection analysis in the cloud[C]//2013 IEEE International Conference on Cloud Engineering (IC2E). Boston, USA:IEEE, 2013:46-53.
[11]	ANGELOPOULOS V, PARSONS T, MURPHY J, et al. GcLite:an expert tool for analyzing garbage collection behavior[C]//201236th IEEE Annual Computer Software and Applications Conference Workshops (COMPSACW). Lzmir, Turkey:IEEE, 2012:493-502.
[12]	SUN M. Memory management in the Java hotspot virtual machine[EB/OL].[2014-08-28]. http://www.oracle.com/technetwork/java/javase/memorymanagement-whitepaper-150215.pdf.
[13]	RAO S S. Engineering optimization:Theory and practice[M]. New Jersey, USA:John Wiley & Sons, 2009.
[14]	FARAZ A, SEYONG L, MITHUNA T, et al. PUMA:Purdue mapreduce benchmarks suite[EB/OL].[2013-09-26]. http://web.ics.purdue.edu/~fahmad/benchmarks.htm.
[15]	CLEVELAND W S, DEVLIN S J. Locally weighted regression:an approach to regression analysis by local fitting[J]. Journal of the American Statistical Association, 1988, 83(403): 596-610. doi: 10.1080/01621459.1988.10478639
[16]	REN Z, XU X, WAN J, et al. Workload characterization on a production hadoop cluster:A case study on taobao[C]//2012 IEEE International Symposium on Workload Characterization (ⅡSWC). California, USA:IEEE Computer Society, 2012:3-13.
[17]	CHEN Y, GANAPATHI A, GRIFFITH R, et al. The case for evaluating mapreduce performance using workload suites[C]//201119th IEEE International Symposium on Modeling, Analysis & Simulation of Computer and Telecommunication Systems (MASCOTS). Singapore:IEEE, 2011:390-399

测试程序	starfish		pred
测试程序	map/MB	reduce/MB	map/MB	reduce/MB
WD	500	4 000	350	2 260
ID	1 200	4 000	350	2 680
TS	500	4 000	250	1 500
ADJ	1 200	4 000	410	2 000

测试程序	MSC	MNSC	RSC	RNSC
WD	162\|0\|0	0\|162\|162	1\|8\|0	0\|0\|8
ID	162\|6\|0	0\|156\|162	1\|8\|0	0\|0\|8
TS	150\|0\|0	50\|200\|200	1\|1\|0	0\|31\|8
ADJ	0\|0\|0	183\|183\|183	1\|16\|0	0\|0\|8
注：表格数据格式为：默认配置\|starfish\|pred。

An Innovative Memory Prediction Approach for Mapreduce Job

doi: 10.3969/j.issn.1001-0548.2016.06.019

Abstract

References

Proportional views

通讯作者: 陈斌, bchen63@163.com

Article Metrics

Related

Proportional views

An Innovative Memory Prediction Approach for Mapreduce Job

doi: 10.3969/j.issn.1001-0548.2016.06.019

Cybersecurity Research Institutes, Sichuan University Chengdu 610065