动态可配置的两阶段虚拟机容错分配方法

陈晓; 江建慧

doi:10.3969/j.issn.1001-0548.2016.02.022

动态可配置的两阶段虚拟机容错分配方法

doi: 10.3969/j.issn.1001-0548.2016.02.022

陈晓,
江建慧

同济大学软件学院上海嘉定区 201804

基金项目:

国家自然科学基金重点项目 61432017

国家自然科学基金青年项目 61404092

江苏省产学研联合创新资金项目子课题 BY2013095-5-06

详细信息

作者简介:
陈晓(1987-),男,博士,主要从事容错计算、软件可靠性等方面的研究

中图分类号: TP302.8

A Dynamic Configurable Two-Phase Virtual Machine Fault-Tolerance Allocation Method

School of Software Engineering, Tongji University Jiading Shanghai 201804

摘要: 提出了一种随着虚拟机资源请求和应用程序可用性水平不断变化的两阶段虚拟机容错分配方法。第一阶段根据虚拟机资源请求变化求解不同的虚拟机初始分配方案集合,第二阶段通过虚拟机在线迁移与虚拟机热备份技术,根据应用程序可用性水平不断变化求解虚拟机容错分配方案。实验结果表明,与现有的方法相比,该文提出的两阶段虚拟机容错分配方法性能更好,系统可用度更高。
- 可用度 /
- 数据中心 /
- 动态可配置 /
- 虚拟机容错分配 /
- 两阶段算法
Abstract: A two-phase virtual machine (VM) fault-tolerance allocation method is proposed according to the constantly change of resources request of VMs and the availability levels of applications. In the first stage, the initial allocation plans of VMs are solved according to the change of resources request of VMs. In the second stage, through live migration of VMs technology and hot standby of VMs technology, the fault-tolerance allocation plan of VMs is solved according to the constantly change of the availability levels of applications. Experimental results demonstrate that the proposed method shows up better performance and higher availability compared with the existing methods.
- availability /
- data center /
- dynamic configuration /
- fault-tolerance allocation of VMs /
- two-phase algorithm
图 1 动态可配置虚拟机容错分配管理结构

下载: 全尺寸图片幻灯片

图 2 物理节点状态迁移

下载: 全尺寸图片幻灯片

图 3 虚拟机状态迁移

下载: 全尺寸图片幻灯片

图 4 两阶段算法流程

下载: 全尺寸图片幻灯片

图 5 不同分配方法的 DCVMFTA 问题求解时间

下载: 全尺寸图片幻灯片

图 6 不同虚拟机容错分配方法的系统可用度

下载: 全尺寸图片幻灯片

图 7 VMIA 对 DCVMFTA 问题求解时间影响

下载: 全尺寸图片幻灯片

图 8 VMIA 问题求解方案对系统可用度影响

下载: 全尺寸图片幻灯片

[1]	FOSTER I, YONG Z, RAICU I, et al. Cloud computing and grid computing 360-degree compared[C]//Proceedings of Grid Computing Environments Workshop. Austin, TX:IEEE, 2008:1-10.
[2]	CHEN Huai-lin. A qualitative and quantitative study on availability of cloud computing[EB/OL].[2013-10-22]. http://www.valleytalk.org/wp-content/uploads/2013/10/.
[3]	XU F, LIU F M, LIU L H, et al. iAware:Making live migration of virtual machines interference-aware in the cloud[J]. IEEE Transactions on Computers, 2014, 63(12):012-3025.
[4]	BRENDAN C, GEOFFREY L, DUTCH M, et al. Remus:High availability via asynchronous virtual machine replication[C]//Proceedings of the 5th USENIX Symposium on Networked Systems Design and Implementation. San Francisco:USENIX Association, 2008:161-174.
[5]	ZHU J, JIANG Z F, XIAO Z, et al. Optimizing the performance of virtual machine synchronization for fault tolerance[J]. IEEE Transactions on Computers, 2011, 60(12):1718-1729.
[6]	WANG Y F, WANG X R. Virtual batching:Request batching for server energy conservation in virtualized data centers[J]. IEEE Transactions on Parallel and Distributed Systems, 2013, 24(8):1695-1705.
[7]	XIAO Z, SONG W J, CHEN Q. Dynamic resource allocation using virtual machines for cloud computing environment[J]. IEEE Transactions on Parallel and Distributed Systems, 2013, 24(6):1107-1117.
[8]	MACHIDA F, KAWATO M, MAENO Y. Redundant virtual machine placement for fault-tolerant consolidated server clusters[C]//Proceedings of 2010 IEEE Network Operations and Management Symposium. Osaka:IEEE, 2010:32-39.
[9]	BIN E, BIRAN O, BONI O, et al. Guaranteeing high availability goals for virtual machine placement[C]//Proceedings of the 31st International Conference on Distributed Computing Systems. Minneapolis:IEEE, 2011:700-709.
[10]	ZHENG Z B, ZHOU T C, LYU M R, et al. Component ranking for fault-tolerant cloud applications[J]. IEEE Transactions on Services Computing, 2012, 5(4):540-550.
[11]	HERMENIER F, LAWALL J, MULLER G. BtrPlace:a flexible consolidation manager for highly available applications[J]. IEEE Transactions on Dependable and Secure Computing, 2013, 10(5):273-286.
[12]	LIU H K, JIN H, XU C Z. Performance and energy modeling for live migration of virtual machines[C]//Proceedings of the 20th International Symposium on High Performance Distributed Computing. San Jose:IEEE, 2011:171-182.

[1]	柏果, 程郁凡, 唐万斌. 基于两阶段加窗插值的多音信号频率估计算法 . 电子科技大学学报, 2021, 50(5): 682-688. doi: 10.12178/1001-0548.2021066
[2]	陈浩, 秦志光, 丁熠. 一种两阶段的由粗到细的多模态脑肿瘤分割框架 . 电子科技大学学报, 2020, 49(4): 590-596. doi: 10.12178/1001-0548.2019285
[3]	陈兴蜀, 陈蒙蒙, 金鑫. 基于影子内存的无代理虚拟机进程防护 . 电子科技大学学报, 2018, 47(1): 80-87. doi: 10.3969/j.issn.1001-0548.2018.01.012
[4]	黄家玮, 徐文茜, 胡晋彬, 王建新, 叶进. 数据中心网络中一种基于ECN的TCP慢启动拥塞控制策略 . 电子科技大学学报, 2018, 47(2): 169-177. doi: 10.3969/j.issn.1001-0548.2018.02.002
[5]	孙健, 廖丹, 李可, 巩玉, 孙罡. 基于排队论的异构数据中心性能及能源管理策略 . 电子科技大学学报, 2018, 47(2): 161-168. doi: 10.3969/j.issn.1001-0548.2018.02.001
[6]	何怀文, 肖涛, 程东, 彭政, 傅瑜. 碳感知的绿色云数据中心能源优化在线算法 . 电子科技大学学报, 2018, 47(4): 550-557. doi: 10.3969/j.issn.1001-0548.2018.04.013
[7]	牛伟纳, 张小松, 孙恩博, 杨国武, 赵凌园. 基于流相似性的两阶段P2P僵尸网络检测方法 . 电子科技大学学报, 2017, 46(6): 902-906, 948. doi: 10.3969/j.issn.1001-0548.2017.06.019
[8]	张淯舒, 王慧强, 冯光升, 吕宏武, 温秀秀. 基于两阶段聚类的机会社会网络路由算法 . 电子科技大学学报, 2017, 46(4): 607-613. doi: 10.3969/j.issn.1001-0548.2017.04.021
[9]	陈兴蜀, 赵成, 陶术松. 基于KVM的Windows虚拟机用户进程防护 . 电子科技大学学报, 2016, 45(6): 950-957. doi: 10.3969/j.issn.1001-0548.2016.06.013
[10]	柳兴, 袁超伟, 杨震, 彭恩达. 移动云计算中一种虚拟机定价与分配方案 . 电子科技大学学报, 2016, 45(2): 197-201.
[11]	赵长名, 刘健, 李云继. 基于改进虚拟机整合算法的虚拟资源管理工具 . 电子科技大学学报, 2016, 45(3): 355-360480. doi: 10.3969/j.issn.1001-0548.2016.02.007
[12]	何嘉, 彭商濂. 云数据中心虚拟机管理研究综述 . 电子科技大学学报, 2016, 45(1): 107-112. doi: 10.3969/j.issn.1001-0548.2016.01.018
[13]	张磊, 陈兴蜀, 刘亮, 李辉. 基于虚拟机的内核完整性保护技术 . 电子科技大学学报, 2015, 44(1): 117-122. doi: 10.3969/j.issn.1001-0548.2015.01.020
[14]	李琳, 伍少梅, 唐宁九. 基于中心加权的局部核向量机算法 . 电子科技大学学报, 2014, 43(4): 612-617. doi: 10.3969/j.issn.1001-0548.2014.04.025
[15]	陈光宇, 李婧, 刘楠, 王惟贤, 梁晨宇. 时间约束下k/N(G)机群任务可用度的建模方法 . 电子科技大学学报, 2014, 43(6): 943-949. doi: 10.3969/j.issn.1001-0548.2014.06.026
[16]	赵波, 向騻, 张焕国, 苏航. 虚拟机环境下并行信任关系研究与实现 . 电子科技大学学报, 2013, 42(1): 98-104. doi: 10.3969/j.issn.1001-0548.2013.01.021
[17]	梁靓, 冯钢. 两跳中继网络的资源分配算法 . 电子科技大学学报, 2013, 42(6): 836-841. doi: 10.3969/j.issn.1001-0548.2013.06.005
[18]	孟江涛, 卢显良, 董贵山. Xen的虚拟机网络优化研究 . 电子科技大学学报, 2010, 39(1): 106-109. doi: 10.3969/j.issn.1001-0548.2010.01.024
[19]	林蓉平, 王晟, 李乐民. 一种考虑阻塞率的WDM网络可用性算法 . 电子科技大学学报, 2007, 36(1): 1-4.
[20]	毛勇, 李才良, 唐应辉. 修理延迟的单部件系统的可靠性分析 . 电子科技大学学报, 2000, 29(5): 545-548.

点击查看大图

图(8)

计量

文章访问数: 4369
HTML全文浏览量: 1184
PDF下载量: 274
被引次数: 0

全文HTML

云计算系统结构包括组织层、统一资源层、平台层与应用层^[1]。虚拟化技术是云计算系统结构统一资源层中最关键的技术，可以提高主机的利用率，降低构建数据中心的成本。同时也会降低数据中心的可靠性，从2006年～2013年亚马逊云计算服务(amazon web services,AWS)宕机数据统计分析可知，排名前三位的分别是电源、存储以及虚拟机^[2]。因此在数据中心服务器整合过程中，研究虚拟机管理的可靠性问题是当前的研究热点。虚拟机容错技术与数据中心服务器整合中虚拟机容错分配技术也随之被关注。

当前虚拟机容错技术主要分为两类：一类是将云计算系统失效节点上放置的虚拟机在线迁移到其他节点^[3]。另一类是利用增量式检查点思想，实现虚拟机热备份系统，主机在运行过程中在一定的时间间隔内将修改后的数据同步到备份机^[4-5]。

数据中心服务器整合主要分为虚拟机初始(静态)分配^[6]和虚拟机动态管理^[7]。已有工作研究以可靠性为目的的虚拟机容错分配问题。文献[8]研究在虚拟机初始分配阶段多种服务部署到不同的虚拟机时，怎样找到最小的物理节点数量，同时保证系统能容忍多节点失效问题，但是未考虑在动态管理阶段虚拟机分配方法。文献[9]研究多个物理节点连续失效时虚拟机的分配序列，在任意时刻保证总有一定数量的虚拟机正常运行，但是未考虑虚拟机动态分配过程中新的约束引入。文献[10]提出一种基于云计算应用组件排序的容错框架，首先找出云计算应用的关键组件，然后对这些关键组件选择合适的软件容错结构，提高云计算应用可靠性，但未考虑部署组件的虚拟机分配问题。文献[11]研究基于约束编程(constraint programming,CP)的可配置的虚拟机分配方法，提出了14种可配置应用程序可用性要求的约束，但是该方法只考虑了基于虚拟机在线迁移的容错结构，同时未考虑虚拟机初始分配对动态分配的影响。

为了解决上述问题，本文提出一种动态可配置的两阶段虚拟机容错分配方法，不仅考虑虚拟机在线迁移，还考虑虚拟机热备份，并提出一种基于CP的两阶段算法，研究虚拟机初始分配对动态可配置的虚拟机容错分配的影响。

2. 动态可配置虚拟机容错分配模型

2.1. 虚拟机容错分配模型

根据图 1中监控器反馈的数据，对那些分配条件发生变化的虚拟机，需要重新找出虚拟机行向量(V)与物理节点行向量(N)之间的映射关系，要求满足虚拟机资源请求，模型求解目标是使重新分配所花费的时间开销最小。为了求解该模型，将虚拟机容错分配分成两个阶段，第一阶段为虚拟机初始分配(virtual machine initial allocation,VMIA)，第二阶段为动态可配置虚拟机容错分配(dynamic configurable virtual machine fault tolerance allocation,DCVMFTA)。

根据1.2小节虚拟机状态迁移描述，可以将虚拟机的迁移动作看作从初始(initial)状态到最终(final)状态的迁移。设n表示物理节点数量、v表示虚拟机数量、p表示物理资源的种类(资源维度)；N_i表示物理节点i的p维资源向量， $i = 1,2, \cdots ,n$ ； ${\bf{V}}_j^{{\rm{ini}}}$ 表示虚拟机j初始状态对资源的需求， $j = 1,2, \cdots ,v$ ； ${\bf{V}}_j^{{\rm{fin}}}$ 表示虚拟机j最终状态对资源的需求；a_j表示虚拟机j的执行动作；d_tj表示虚拟机j执行状态转移动作t的时间， $t \in {\bf{A}}$ ；c_tj表示虚拟机j执行状态转移动作t的时刻；w_tj表示虚拟机j执行状态转移动作t的权重(Unmove的权重为0，其他动作的权重均为1)；X表示已使用物理节点数量，_i表示若存在虚拟机放置在物理节点i，其值为1，否则为0。为了形式化描述两阶段问题，给出两个定义。

定义 1 虚拟机行向量V与物理节点行向量N的映射函数为g，即g: ${\bf{V}} \to {\bf{N}}$ 。

定义 2 四元组 ${\bf{T}} = ({\bf{V}},{g_{{\rm{ini}}}}({\bf{V}}),{\bf{A}},{g_{{\rm{fin}}}}({\bf{V}}))$ 表示 $\forall $ 虚拟机 $j \in {\bf{V}}$ ，初始被分配到物理节点 ${g_{{\rm{ini}}}}(j)$ ，然后经过执行动作 $a \in {\bf{A}}$ ，最终被分配到物理节点 ${g_{{\rm{fin}}}}(j)$ ，这一执行过程表示虚拟机在动态管理过程中的状态转移。

1) VMIA。VMIA主要研究V与N的映射方案，要求满足虚拟机资源请求与物理节点的资源匹配限制条件，目标是使用的物理节点数量最少。式(1)给出VMIA问题的目标函数，即使用的物理节点数量最小。式(2)给出VMIA的约束条件，即放置在物理节点上的所有虚拟机每个维度的资源请求总和不能超过该物理节点所拥有的资源。

目标：

$${\rm{Min}}(X) = {\rm{Min}}\left( {\sum\limits_{i = 1}^n {{x_i}} } \right)$$

(1)

约束：

$$\sum\limits_{j \in g_{{\rm{ini}}}^{ - 1}(i)} {{\bf{V}}_j^{{\rm{ini}}}} \le {{\bf{N}}_i}$$

(2)

根据定义1可知， $g_{{\rm{ini}}}^{ - 1}(i)$ 表示放置在物理节点i上的虚拟机集合。

2) DCVMFTA。DCVMFTA主要研究在VMIA求解方案基础上，随着虚拟机分配条件的变化，求解V与N的再次映射方案。虚拟机分配条件发生变化主要有两类情况：一类是随着应用程序的变化，某些虚拟机对物理资源请求的增加或者减少；另一类是虚拟机可用性水平的动态配置。式(3)给出了求解DCVMFTA问题的目标函数，表示所有虚拟机的状态迁移执行动作的时间开销之和最小。式(4)给出DCVMFTA的约束条件，表示任意时刻对任意虚拟机 $j \in {\bf{V}}$ ，在执行状态迁移动作之前时刻( $l ＜ {d_{tj}} + {c_{tj}}$ )的资源请求与执行状态迁移动作之后时刻( $l \ge {c_{tj}}$ )的资源请求之和小于放置之上的物理节点i所拥有的资源。其中，l表示任意时刻。

目标：

$$M = {\rm{Min}}\sum\limits_{j \in {\bf{V}}} {{w_{tj}} \times ({d_{tj}} + {c_{tj}})} $$

(3)

约束：

$$\sum\limits_{\begin{matrix} j\in g_{\text{ini}}^{-1}(i)\text{ } \\ l\text{ ＜}{{d}_{tj}}+{{c}_{tj}}\text{ } \\ \end{matrix}}{V_{j}^{\text{ini}}}+\sum\limits_{\begin{matrix} j\in g_{\text{fin}}^{-1}(i)\text{ } \\ l\ge {{c}_{tj}}\text{ } \\ \end{matrix}}{V_{j}^{\text{fin}}}\le {{N}_{i}}$$

(4)

2.2. 可配置虚拟机容错分配描述

根据图 1可知，监控器动态接收新的约束，这些约束主要为提高数据中心可靠性虚拟机与物理节点映射的约束规则。共有两类约束，分别是分散(spread)与冗余(redundancy)。

1) Spread表示给定的虚拟机集合中任意两个虚拟机不能放置在同一物理节点上，主要是为了防止单点故障而导致虚拟机与其对应的冗余虚拟机同时失效。Spread的描述为spread(V)，其约束模型为：

$${g_{{\rm{fin}}}}({j_1}) \ne {g_{{\rm{fin}}}}({j_2}){\rm{ }}\forall {j_1},{j_2} \in {\bf{V}}$$

(5)

2) Redundancy表示给定的虚拟机集合的冗余水平，主要是对提供关键服务的虚拟机进行冗余备份并同步。Redundancy的描述为redundancy(V，k)，k为虚拟机冗余数量，一般k=2时，属于虚拟机双机热备份，其约束模型如下：

$$\eqalign{ & \forall j \in {\bf{V}},{{\bf{V}}_j} = \{ {j_b}|b = 1,2, \cdots ,k\} ,\forall {j_1},{j_2} \in {{\bf{V}}_j}, \cr & {g_{{\rm{ini}}}}({j_1}) \ne {g_{{\rm{ini}}}}({j_2})and{g_{{\rm{fin}}}}({j_1}) \ne {g_{{\rm{fin}}}}({j_2}) \cr} $$

(6)

2.3. 系统可用度 (availability)

虚拟机容错分配系统周期性地对无法满足需求的虚拟机进行再次分配，因此，可以量化动态可配置的虚拟机容错分配系统的可用度^[11]。完成一次虚拟机容错分配所需要的时间为求解时间(Ts)与预测分配时间(Tr)之和，用(Ts+Tr)表示。定义系统平均修复时间(mean time to repair,MTTR)： ${\rm{MTTR}} = ({\rm{Ts}} + {\rm{Tr}}) \times \sigma $ ,表示需要重新分配的虚拟机比例。设虚拟机重新分配的时间周期为Tp，那么系统可用度A如式(7)所示，Tp一般取值为1小时。

$$A = {{{\rm{Tp}}} \over {{\rm{Tp}} + {\rm{MTTR}}}} = {{{\rm{Tp}}} \over {{\rm{Tp}} + {\rm{(Ts}} + {\rm{Tr)}} \times \sigma }}$$

(7)

5. 结束语

针对数据中心服务器整合的可靠性问题，本文提出一种动态可配置的两阶段虚拟机容错分配方法。随着虚拟机请求资源和用户对应用程序可用性水平的不断变化，通过虚拟机在线迁移与虚拟机热备份技术，构建了一种动态可配置的两阶段虚拟机容错分配模型，提出了一种基于CP的两阶段算法求解该模型。实验结果表明，与现有的方法相比，本文提出的方法求解时间更少，系统可用度更高。下一步研究工作考虑其他因素对虚拟机容错分配的影响，例如，功耗、云计算系统服务等级合约等。

参考文献 (12)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

动态可配置的两阶段虚拟机容错分配方法

doi: 10.3969/j.issn.1001-0548.2016.02.022

作者简介:
陈晓(1987-),男,博士,主要从事容错计算、软件可靠性等方面的研究

A Dynamic Configurable Two-Phase Virtual Machine Fault-Tolerance Allocation Method

计量

动态可配置的两阶段虚拟机容错分配方法

doi: 10.3969/j.issn.1001-0548.2016.02.022

同济大学软件学院上海嘉定区 201804

作者简介:
陈晓(1987-),男,博士,主要从事容错计算、软件可靠性等方面的研究

English Abstract