TAR-CAU: An XOR-Based Data Update Scheme

XIAO Yifei; ZHOU Shijie

doi:10.12178/1001-0548.2022156

In an erasure-coded cloud storage system, the performance of data updates is often limited by network overhead. To end this, based on Cross-Rack-Aware Update (CAU) data update scheme, we propose an XOR based Tape ARchive Cross-Rack-Aware Updates (TAR-CAU) data update scheme. TAR-CAU is designed in terms of the two design primitives: 1) as the updates are small, we can pack several data blocks of data update into one block to reduce the number of network round trips, and accelerate the data transmission; 2) XOR-based data update scheme is used to accelerate data encoding and decoding. The simulation experiments and local cluster experiments show that, when the data updates are small, TAR-CAU can increase the data update throughput by at least 44% compared with the CAU.

HTML

纠删码(erasure codes)^[1-2]是云存储中一种较为先进的数据容错技术，相较于传统的多副本技术，采用纠删码提供数据冗余存储，会极大地降低系统的存储开销。如QFS文件系统(qunantcast file system)和MapReduce框架的数据存储后台采用纠删码进行冗余存储，比原来的HDFS采用多副本技术节省了50%的存储空间^[3]。然而，纠删码也引发了2个新问题：数据修复^[4]和数据更新^[5]。在数据更新中，由于纠删码提供的冗余校验数据是多个原始数据的线性变换组合，因此，当原始数据更新时，为了保证数据一致性，其校验数据也需要进行更新(称为校验更新)。根据文献[6-7]提供的数据访问记录，可以得出以下两个结论。

1) 更新非常普遍，在大约1.73亿次的写请求中，超过91%的请求是更新数据；

2) 更新的数据量小，在所有的更新请求中，超过60%的更新小于4 KB。

数据中心由成千上万个节点组成，其网络拓扑结构非常复杂，数据中心的数据更新性能往往受到网络的限制^[8]，如何降低校验更新的网络开销是纠删码中亟待解决的问题。为了优化网络开销，国内外学者提出了很多数据更新方法。如PUM-P算法是利用更新管理器(update manager)计算数据变化(delta值)，并传输delta值给相关的校验节点进行更新^[9]；PDN-P算法摒弃更新管理器，直接通过数据节点计算并传输delta值到相关的校验节点^[9]；T-Update算法发现传统的数据传输模型是星型结构，不利于充分利用网络带宽，同时容易造成单点瓶颈，因此，将传输模型改为树型结构，增加网络并行度^[10]。文献[8]提出CAU(cross-rack-aware updates)算法，将数据中心的各个存储节点按照机架(rack)分组，为了减少机架之间的网络开销，提出了2种可选的更新方式：

1)校验增量更新(parity-delta update)，当数据机架(专用于存放数据节点)的更新量大于校验机架(专用于存放校验节点)的更新量时，选择将同一机架中的所有delta值都汇聚到一个数据节点(数据转发节点)，再由数据转发节点计算并转发校验更新给各个相关的校验节点；

2)数据增量更新(data-delta update)，当数据机架的更新量小于校验机架时，分别将各个数据节点的delta值发送给同一个校验节点(校验转发节点)，再由校验转发节点计算校验更新并转发给其他校验节点^[8]。

本文的主要目标是对数据更新的网络传输进行优化，基于CAU算法的思想，提出了改进算法—TAR-CAU，该算法针对更新数据量普遍较小的现象，借鉴tar打包原理，提出将同一个节点中的多个更新数据打包成一个块，再利用CAU算法更新，从而减少网络往返时间，降低发送端与接收端的更新处理频率，提高数据更新的效率。

本文的主要研究工作有以下3点。

1) 基于CAU算法，提出了TAR-CAU算法。该算法基于XOR进行数据更新，同时，利用更新数据量小的特点，将多个更新打包传输，从而减少网络往返次数，提高数据更新效率。

2) 实现原型系统。本文基于Go语言在Ubuntu 18.04平台实现了TAR-CAU原型系统，该系统包含中央控制器、算法调度器和节点代理的统一调度框架，不仅可以稳定运行TAR-CAU算法，同时，可以方便扩展并运行其他数据更新算法。

3) 验证算法的有效性。本文基于仿真实验和本地集群实验，利用微软剑桥研究院和哈佛NSR提供的真实数据集进行实验，与CAU算法进行了对比，从实验的结果来看，本文提出的算法能够有效提高数据更新吞吐量。

4. 结束语

为解决云存储中数据更新的网络瓶颈，本文针对数据更新的网络传输进行了优化，基于CAU算法，提出了TAR-CAU，并针对数据更新量普遍较小的现象进行优化，将同一节点的多条带更新数据打包到同一条带进行处理。仿真实验和本地集群实验均表明，相比于CAU算法，当数据更新量较小时，本文的TAR-CAU算法能够至少提高44%的数据更新吞吐量。

Reference (15)

[1]	REED I S, SOLOMON G. Polynomial codes over certain finite fields[J]. Journal of the Society for Industrial and Applied Mathematics, 1960, 8(2): 300-304.
[2]	NACHIAPPAN R, JAVADI B, CALHEIROS R N, et al. Cloud storage reliability for big data applications: A state of the art survey[J]. Journal of Network and Computer Applications, 2017, 97: 35-47.
[3]	ZHOU T, TIAN C. Fast erasure coding for data storage: A comprehensive study of the acceleration techniques[J]. ACM Transactions on Storage (TOS), 2020, 16(1): 1-24.
[4]	傅颖勋, 文士林, 马礼, 等. 纠删码存储系统单磁盘错误重构优化方法综述[J]. 计算机研究与发展, 2018, 55(1): 1.	FU Y X, WENG S L, MA L, et al. Survey on single disk failure recovery methods for erasure coded storage systems[J]. Journal of Computer Research and Development, 2018, 55(1): 1.
[5]	XIAO Y, ZHOU S, ZHONG L. Erasure coding-oriented data update for cloud storage: A survey[J]. IEEE Access, 2020, 8: 227982-227998.
[6]	NARAYANAN D, DONNELLY A, ROWSTRON A. Writeoff-Loading: Practical power management for enterprise storage[J]. ACM Transactions on Storage, 2008, 4(3): 1-23.
[7]	ELLARD D J. Trace-Based analyses and optimizations for network storage servers[D]. Cambridge, MA: Harvard University, 2004.
[8]	SHEN Z, LEE P P. Cross-Rack-Aware updates in erasure-coded data centers[C]//Proceedings of the 47th International Conference on Parallel Processing. [S.l.]: IEEE, 2018: 1-10.
[9]	ZHANG F, HUANG J, XIE C. Two efficient partial-updating schemes for erasure-coded storage clusters[C]//2012 IEEE 7th International Conference on Networking, Architecture, and Storage. [S.l.]: IEEE, 2012: 21-30.
[10]	PEI X, WANG Y, MA X, et al. T-Update: A tree-structured update scheme with top-down transmission in erasure-coded systems[C]//IEEE Infocom 2016 the 35th Annual IEEE International Conference on Computer Communications. [S.l.]: IEEE, 2016: 1-9.
[11]	罗象宏, 舒继武. 存储系统中的纠删码研究综述[J]. 计算机研究与发展, 2012, 49(1): 1-11.	LUO X H, SHU J W. Summary of research for erasure code in storage system[J]. Journal of Computer Research and Development, 2012, 49(1): 1-11.
[12]	BLAUM M, BRADY J, BRUCK J, et al. EVENODD: An optimal scheme for tolerating double disk failures in RAID architectures[C]//Proceedings of the 21st Annual International Symposium on Computer Architecture. [S. l. ]: IEEE, 1994: 245-254.
[13]	BLOEMER J, KALFANE M, KARP R, et al. An xor-based erasure-resilient coding scheme[R]. Berkeley, California: ICSI Technical Report No. TR-95-048, 1995.
[14]	PROXMOX. Proxmox virtual environment[EB/OL]. [2022-04-28]. https://www.proxmox.com/en/proxmox-ve.
[15]	KERRISK M. Tc(8)-Linux manual page[EB/OL]. (2021-08-27). https://man7.org/linux/man-pages/man8/tc.8.html.

属性	值
CPU	Intel Core i7
内存	16 GB DDR3
磁盘	1 TB SSD
网络带宽/MB	100
操作系统	Mac OS
数据集	hm_0, hm_1, rsrch_1
仿真实验平台	自建(Go语言)

属性	值
CPU	2核
内存/GB	2
磁盘/GB	32
带宽/GB·s⁻¹	1/0.2
操作系统	Ubuntu 18.04
数据集	hm_0, hm_1, rsrch_1

TAR-CAU: An XOR-Based Data Update Scheme

doi: 10.12178/1001-0548.2022156

Abstract

References

Proportional views

通讯作者: 陈斌, bchen63@163.com

Article Metrics

Related

Proportional views