基于XOR的TAR-CAU数据更新方法

肖逸飞; 周世杰

doi:10.12178/1001-0548.2022156

基于XOR的TAR-CAU数据更新方法

doi: 10.12178/1001-0548.2022156

肖逸飞^,,
周世杰

电子科技大学信息与软件工程学院　成都　611731

基金项目: 四川省科技厅重大专项(2020YFG0460)

详细信息

作者简介:
肖逸飞(1989 − )，男，博士生，主要从事数据存储方面的研究

通讯作者: 肖逸飞，E-mail: xyf1989@uestc.edu.cn

TAR-CAU: An XOR-Based Data Update Scheme

XIAO Yifei^,,
ZHOU Shijie

School of Information and Software Engineering, University of Electronic Science and Technology of China　Chengdu　611731

摘要: 在基于纠删码的云存储系统中，数据更新的性能往往受到网络带宽的限制。鉴于此，提出了基于异或(XOR)的TAR-CAU数据更新算法，该算法基于以下设计原则：1)利用数据更新量普遍较小的特点，将多条带的数据更新打包处理，减少网络往返次数，加快数据传输效率；2)采用基于XOR的更新，提高编解码效率。仿真实验和本地集群实验结果表明，相比于CAU算法，在数据更新量较小时，TAR-CAU算法能够提高至少44%的数据更新吞吐量。
- 云存储 /
- 数据更新 /
- 纠删码 /
- 网络 /
- 打包
Abstract: In an erasure-coded cloud storage system, the performance of data updates is often limited by network overhead. To end this, based on Cross-Rack-Aware Update (CAU) data update scheme, we propose an XOR based Tape ARchive Cross-Rack-Aware Updates (TAR-CAU) data update scheme. TAR-CAU is designed in terms of the two design primitives: 1) as the updates are small, we can pack several data blocks of data update into one block to reduce the number of network round trips, and accelerate the data transmission; 2) XOR-based data update scheme is used to accelerate data encoding and decoding. The simulation experiments and local cluster experiments show that, when the data updates are small, TAR-CAU can increase the data update throughput by at least 44% compared with the CAU.
- cloud storage /
- data update /
- erasure coding /
- network /
- tar

图 1 RS(5, 3)云存储系统

下载: 全尺寸图片幻灯片

图 2 RS (5, 3)编码过程

下载: 全尺寸图片幻灯片

图 3 基于XOR的编码

下载: 全尺寸图片幻灯片

图 4 CAU的2种更新方法

下载: 全尺寸图片幻灯片

图 5 数据更新示例(CAU模型)

下载: 全尺寸图片幻灯片

图 6 TAR-CAU模型

下载: 全尺寸图片幻灯片

图 7 TAR-CAU对同一块多次访问的合并处理

下载: 全尺寸图片幻灯片

图 8 平均更新时间(不同数据集)

下载: 全尺寸图片幻灯片

图 9 吞吐量

下载: 全尺寸图片幻灯片

图 10 本地集群网络拓扑

下载: 全尺寸图片幻灯片

图 11 平均单块更新时间

下载: 全尺寸图片幻灯片

图 12 吞吐量

下载: 全尺寸图片幻灯片

图 13 打包与解包计算时间

下载: 全尺寸图片幻灯片

表 1 仿真环境

属性	值
CPU	Intel Core i7
内存	16 GB DDR3
磁盘	1 TB SSD
网络带宽/MB	100
操作系统	Mac OS
数据集	hm_0, hm_1, rsrch_1
仿真实验平台	自建(Go语言)

下载: 导出CSV

表 2 虚拟机配置

属性	值
CPU	2核
内存/GB	2
磁盘/GB	32
带宽/GB·s⁻¹	1/0.2
操作系统	Ubuntu 18.04
数据集	hm_0, hm_1, rsrch_1

下载: 导出CSV

[1]	REED I S, SOLOMON G. Polynomial codes over certain finite fields[J]. Journal of the Society for Industrial and Applied Mathematics, 1960, 8(2): 300-304. doi: 10.1137/0108018
[2]	NACHIAPPAN R, JAVADI B, CALHEIROS R N, et al. Cloud storage reliability for big data applications: A state of the art survey[J]. Journal of Network and Computer Applications, 2017, 97: 35-47. doi: 10.1016/j.jnca.2017.08.011
[3]	ZHOU T, TIAN C. Fast erasure coding for data storage: A comprehensive study of the acceleration techniques[J]. ACM Transactions on Storage (TOS), 2020, 16(1): 1-24.
[4]	傅颖勋, 文士林, 马礼, 等. 纠删码存储系统单磁盘错误重构优化方法综述[J]. 计算机研究与发展, 2018, 55(1): 1. FU Y X, WENG S L, MA L, et al. Survey on single disk failure recovery methods for erasure coded storage systems[J]. Journal of Computer Research and Development, 2018, 55(1): 1.
[5]	XIAO Y, ZHOU S, ZHONG L. Erasure coding-oriented data update for cloud storage: A survey[J]. IEEE Access, 2020, 8: 227982-227998. doi: 10.1109/ACCESS.2020.3033024
[6]	NARAYANAN D, DONNELLY A, ROWSTRON A. Writeoff-Loading: Practical power management for enterprise storage[J]. ACM Transactions on Storage, 2008, 4(3): 1-23.
[7]	ELLARD D J. Trace-Based analyses and optimizations for network storage servers[D]. Cambridge, MA: Harvard University, 2004.
[8]	SHEN Z, LEE P P. Cross-Rack-Aware updates in erasure-coded data centers[C]//Proceedings of the 47th International Conference on Parallel Processing. [S.l.]: IEEE, 2018: 1-10.
[9]	ZHANG F, HUANG J, XIE C. Two efficient partial-updating schemes for erasure-coded storage clusters[C]//2012 IEEE 7th International Conference on Networking, Architecture, and Storage. [S.l.]: IEEE, 2012: 21-30.
[10]	PEI X, WANG Y, MA X, et al. T-Update: A tree-structured update scheme with top-down transmission in erasure-coded systems[C]//IEEE Infocom 2016 the 35th Annual IEEE International Conference on Computer Communications. [S.l.]: IEEE, 2016: 1-9.
[11]	罗象宏, 舒继武. 存储系统中的纠删码研究综述[J]. 计算机研究与发展, 2012, 49(1): 1-11. LUO X H, SHU J W. Summary of research for erasure code in storage system[J]. Journal of Computer Research and Development, 2012, 49(1): 1-11.
[12]	BLAUM M, BRADY J, BRUCK J, et al. EVENODD: An optimal scheme for tolerating double disk failures in RAID architectures[C]//Proceedings of the 21st Annual International Symposium on Computer Architecture. [S. l. ]: IEEE, 1994: 245-254.
[13]	BLOEMER J, KALFANE M, KARP R, et al. An xor-based erasure-resilient coding scheme[R]. Berkeley, California: ICSI Technical Report No. TR-95-048, 1995.
[14]	PROXMOX. Proxmox virtual environment[EB/OL]. [2022-04-28]. https://www.proxmox.com/en/proxmox-ve.
[15]	KERRISK M. Tc(8)-Linux manual page[EB/OL]. (2021-08-27). https://man7.org/linux/man-pages/man8/tc.8.html.

[1]	王刚, 胡鑫, 陆世伟. 节点增减机制下的病毒传播模型及稳定性 . 电子科技大学学报, 2019, 48(1): 74-79. doi: 10.3969/j.issn.1001-0548.2019.01.013
[2]	王瑞锦, 张凤荔, 王馨云, 陈学勤, 罗昊, 秦圣智. 基于改进跳表的云端数据完整性验证协议 . 电子科技大学学报, 2018, 47(1): 88-94. doi: 10.3969/j.issn.1001-0548.2018.01.013
[3]	何嘉, 彭商濂. 云数据中心虚拟机管理研究综述 . 电子科技大学学报, 2016, 45(1): 107-112. doi: 10.3969/j.issn.1001-0548.2016.01.018
[4]	姜春茂, 王启明, 申倩, 许美玉. 一种适合移动云节点的可靠存储模型 . 电子科技大学学报, 2016, 45(1): 113-117.
[5]	段翰聪, 向小可, 吕鹏程. MUSE:一种面向云存储系统的高性能元数据存储引擎 . 电子科技大学学报, 2016, 45(2): 221-226.
[6]	张新鹏, 许春香, 张晓均, 邓江, 黄新. 对类型可修改的基于身份代理重加密方案的改进 . 电子科技大学学报, 2016, 45(6): 964-968. doi: 10.3969/j.issn.1001-0548.2016.06.015
[7]	郭畅, 沈晴霓, 吴中海. 防止数据泄露的云存储数据分布优化模型 . 电子科技大学学报, 2016, 45(1): 118-122. doi: 10.3969/j.issn.1001-0548.2016.01.020
[8]	任飞, 刘贤洪, 秦志光. 智能电视安全存储数据访问方法 . 电子科技大学学报, 2014, 43(1): 144-148. doi: 10.3969/j.issn.1001-0548.2014.01.024
[9]	刘志远, 崔国华. 类型可修改的基于身份代理重加密方案 . 电子科技大学学报, 2014, 43(3): 409-412. doi: 10.3969/j.issn.1001-0548.2014.03.016
[10]	马华, 刘雪, 刘振华, 乔丹丹. 基于云存储的高效F-HMIPv6切换协议 . 电子科技大学学报, 2014, 43(2): 231-234. doi: 10.3969/j.issn.1001-0548.2014.02.014
[11]	钟婷, 耿纪昭, 熊虎, 秦志光. 云存储中基于SBT的数据完整性验证机制 . 电子科技大学学报, 2014, 43(6): 929-933. doi: 10.3969/j.issn.1001-0548.2014.06.023
[12]	陈勋, 韩臻, 刘吉强. 涉密网络中的数据保护技术 . 电子科技大学学报, 2013, 42(1): 144-148. doi: 10.3969/j.issn.1001-0548.2013.01.029
[13]	王丽丹, 段美涛, 段书凯. 基于STDP规则的忆阻神经网络在图像存储中的应用 . 电子科技大学学报, 2013, 42(5): 642-647. doi: 10.3969/j.issn.1001-0548.2013.05.001
[14]	刘自鑫, 钟守铭. 网络化控制系统随机容错控制 . 电子科技大学学报, 2011, 40(4): 549-553.
[15]	王晓喃, 高德民. 下一代全IP无线传感器网络的研究与设计 . 电子科技大学学报, 2010, 39(6): 924-928,951. doi: 10.3969/j.issn.1001-0548.2010.06.025
[16]	黄继伟, 李云飞, 朱宏. 删失数据下的Fisher信息量 . 电子科技大学学报, 2006, 35(3): 423-425.
[17]	许之, 唐晓华, 卢显良. 网络负载生成器的研究与设计 . 电子科技大学学报, 2005, 34(5): 654-656,712.
[18]	谢光忠, 蒋亚东, 杨邦朝. 温湿度智能传感器软件开发 . 电子科技大学学报, 2003, 32(1): 43-46.
[19]	周世杰, 秦志光, 耿技. 办公自动化系统中的安全性 . 电子科技大学学报, 2000, 29(2): 201-204.
[20]	刘煜, 蔡希尧. 面向网络的一种新分布式事务处理协议 . 电子科技大学学报, 1997, 26(2): 175-179.

点击查看大图

图(13) / 表(2)

计量

文章访问数: 4349
HTML全文浏览量: 1302
PDF下载量: 47
被引次数: 0

全文HTML

纠删码(erasure codes)^[1-2]是云存储中一种较为先进的数据容错技术，相较于传统的多副本技术，采用纠删码提供数据冗余存储，会极大地降低系统的存储开销。如QFS文件系统(qunantcast file system)和MapReduce框架的数据存储后台采用纠删码进行冗余存储，比原来的HDFS采用多副本技术节省了50%的存储空间^[3]。然而，纠删码也引发了2个新问题：数据修复^[4]和数据更新^[5]。在数据更新中，由于纠删码提供的冗余校验数据是多个原始数据的线性变换组合，因此，当原始数据更新时，为了保证数据一致性，其校验数据也需要进行更新(称为校验更新)。根据文献[6-7]提供的数据访问记录，可以得出以下两个结论。

1) 更新非常普遍，在大约1.73亿次的写请求中，超过91%的请求是更新数据；

2) 更新的数据量小，在所有的更新请求中，超过60%的更新小于4 KB。

数据中心由成千上万个节点组成，其网络拓扑结构非常复杂，数据中心的数据更新性能往往受到网络的限制^[8]，如何降低校验更新的网络开销是纠删码中亟待解决的问题。为了优化网络开销，国内外学者提出了很多数据更新方法。如PUM-P算法是利用更新管理器(update manager)计算数据变化(delta值)，并传输delta值给相关的校验节点进行更新^[9]；PDN-P算法摒弃更新管理器，直接通过数据节点计算并传输delta值到相关的校验节点^[9]；T-Update算法发现传统的数据传输模型是星型结构，不利于充分利用网络带宽，同时容易造成单点瓶颈，因此，将传输模型改为树型结构，增加网络并行度^[10]。文献[8]提出CAU(cross-rack-aware updates)算法，将数据中心的各个存储节点按照机架(rack)分组，为了减少机架之间的网络开销，提出了2种可选的更新方式：

1)校验增量更新(parity-delta update)，当数据机架(专用于存放数据节点)的更新量大于校验机架(专用于存放校验节点)的更新量时，选择将同一机架中的所有delta值都汇聚到一个数据节点(数据转发节点)，再由数据转发节点计算并转发校验更新给各个相关的校验节点；

2)数据增量更新(data-delta update)，当数据机架的更新量小于校验机架时，分别将各个数据节点的delta值发送给同一个校验节点(校验转发节点)，再由校验转发节点计算校验更新并转发给其他校验节点^[8]。

本文的主要目标是对数据更新的网络传输进行优化，基于CAU算法的思想，提出了改进算法—TAR-CAU，该算法针对更新数据量普遍较小的现象，借鉴tar打包原理，提出将同一个节点中的多个更新数据打包成一个块，再利用CAU算法更新，从而减少网络往返时间，降低发送端与接收端的更新处理频率，提高数据更新的效率。

本文的主要研究工作有以下3点。

1) 基于CAU算法，提出了TAR-CAU算法。该算法基于XOR进行数据更新，同时，利用更新数据量小的特点，将多个更新打包传输，从而减少网络往返次数，提高数据更新效率。

2) 实现原型系统。本文基于Go语言在Ubuntu 18.04平台实现了TAR-CAU原型系统，该系统包含中央控制器、算法调度器和节点代理的统一调度框架，不仅可以稳定运行TAR-CAU算法，同时，可以方便扩展并运行其他数据更新算法。

3) 验证算法的有效性。本文基于仿真实验和本地集群实验，利用微软剑桥研究院和哈佛NSR提供的真实数据集进行实验，与CAU算法进行了对比，从实验的结果来看，本文提出的算法能够有效提高数据更新吞吐量。

4. 结束语

为解决云存储中数据更新的网络瓶颈，本文针对数据更新的网络传输进行了优化，基于CAU算法，提出了TAR-CAU，并针对数据更新量普遍较小的现象进行优化，将同一节点的多条带更新数据打包到同一条带进行处理。仿真实验和本地集群实验均表明，相比于CAU算法，当数据更新量较小时，本文的TAR-CAU算法能够至少提高44%的数据更新吞吐量。

参考文献 (15)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于XOR的TAR-CAU数据更新方法

doi: 10.12178/1001-0548.2022156

作者简介:
肖逸飞(1989 − )，男，博士生，主要从事数据存储方面的研究

通讯作者: 肖逸飞，E-mail: xyf1989@uestc.edu.cn

TAR-CAU: An XOR-Based Data Update Scheme

计量

基于XOR的TAR-CAU数据更新方法

doi: 10.12178/1001-0548.2022156

电子科技大学信息与软件工程学院　成都　611731

作者简介:
肖逸飞(1989 − )，男，博士生，主要从事数据存储方面的研究

通讯作者: 肖逸飞，E-mail: xyf1989@uestc.edu.cn

English Abstract

TAR-CAU: An XOR-Based Data Update Scheme

School of Information and Software Engineering, University of Electronic Science and Technology of China　Chengdu　611731

全文HTML

1.1. 纠删码概述

1.2. 数据更新

3.1. 仿真实验

3.2. 本地集群实验

目录

期刊在线

编辑办公

友情链接

留言板

基于XOR的TAR-CAU数据更新方法

doi: 10.12178/1001-0548.2022156

作者简介: 肖逸飞(1989 − )，男，博士生，主要从事数据存储方面的研究

通讯作者: 肖逸飞，E-mail: xyf1989@uestc.edu.cn

TAR-CAU: An XOR-Based Data Update Scheme

计量

出版历程

基于XOR的TAR-CAU数据更新方法

doi: 10.12178/1001-0548.2022156

电子科技大学信息与软件工程学院 成都 611731

作者简介: 肖逸飞(1989 − )，男，博士生，主要从事数据存储方面的研究

通讯作者: 肖逸飞，E-mail: xyf1989@uestc.edu.cn

English Abstract

TAR-CAU: An XOR-Based Data Update Scheme

School of Information and Software Engineering, University of Electronic Science and Technology of China Chengdu 611731

全文HTML

1.1. 纠删码概述

1.2. 数据更新

3.1. 仿真实验

3.2. 本地集群实验

目录

期刊在线

编辑办公

友情链接

作者简介:
肖逸飞(1989 − )，男，博士生，主要从事数据存储方面的研究

电子科技大学信息与软件工程学院　成都　611731

作者简介:
肖逸飞(1989 − )，男，博士生，主要从事数据存储方面的研究

School of Information and Software Engineering, University of Electronic Science and Technology of China　Chengdu　611731