基于FSL数据集的去重性能分析

曹晖; 张秦正

doi:10.3969/j.issn.1001-0548.2018.04.023

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名

邮箱

手机号码

标题

留言内容

验证码

基于FSL数据集的去重性能分析

电子科技大学计算机科学与工程学院成都 611731

详细信息

作者简介:
曹晖(1995-), 女, 主要从事信息安全、重复数据删除方面的研究

中图分类号: TP391

摘要: 重复数据删除技术作为一种数据缩减技术，实现了对高度冗余数据集的压缩功能，可以有效地解决存储系统空间浪费所带来的成本开销问题。相较于过去大多针对小规模静态快照或是覆盖时间较短的快照的研究，该文基于从共享用户文件系统选取的覆盖时间较长的大规模快照，从文件、数据块以及用户的角度研究备份数据集的特征，分析不同数据分块方法、策略下去重性能的优缺点，得到最高的重复数据删除率，为未来的重复数据删除系统设计提出建议。

关键词:

Abstract: As a data reduction technology, the deduplication technology realizes the compression function of highly redundant data sets, and can effectively solve the overhead cost which is caused by the waste of space in the storage system. Compared to the previous studies which were mainly based on small-scale static snapshots or short-coverage snapshots, the highest deduplication ratio can be achieved by using large-scale snapshots with a long-coverage time. The large-scale snapshots are selected from the shared user file system. The characteristics of backup datasets from files, data blocks, and users are studied, and the advantages and disadvantages of different data partitioning methods and strategies are analyzed. The proposed result suggests a reference for future deduplication system design.

Key words:

基于FSL数据集的去重性能分析

电子科技大学计算机科学与工程学院成都 611731

作者简介:
曹晖(1995-), 女, 主要从事信息安全、重复数据删除方面的研究

收稿日期: 2017-07-21

修回日期: 2017-11-15

刊出日期: 2018-07-01

中图分类号: TP391

关键词:

全文HTML

随着互联网信息的快速增长，数据所需存储空间也不断增加。仅在过去十几年间，企业存储数据已达到EB级，且数据的增长速度远超存储空间的发展速度，导致数据存储成本大幅增加。IDC(international data corporation)调查发现^[1]，仅2006年—2010年间，数据就从161 EB增加到988 EB，并以每年57%的速度飞速增长。IDC预计，到2020年人类所产生的数据总量将达到40 ZB。全球的数字化浪潮所引发的爆炸性数据增长，使得人们对数据的存储需求也大幅提高。

如今的存储系统中有60%是冗余数据，且随着时间的推移这个比例还会越来越高^[2]。因此重复数据删除技术受到了越来越多的科研机构及企业的关注^[3]。重复数据删除技术可以分析出存储系统中的重复数据并对其进行删除，以减少存储空间达到节省存储成本的目的。

当前对于重复数据删除的研究主要集中在以下4个方面^[4]：1)对重复数据删除率(简称“重删率”)的提高，通过挖掘并删除更多的重复数据，节省存储空间降低存储能耗；2)提高重复数据删除性能，保证在删除重复数据时不影响数据系统的吞吐率；3)提高重复数据删除可靠性，保证删除重复数据后留存的数据孤本安全；4)满足系统的扩展性。

数据重删技术目前广泛应用于数据备份系统和云存储系统中，在对数据进行多次备份后，存储系统中产生大量的重复数据，令该技术有足够的用武之地。衡量重复数据删除技术的标准主要有重复数据删除率和重复数据删除性能两个方面。重复数据删除性能主要取决于重删系统实现所用的技术，而重删率与数据集本身的特点和应用情况有关，如数据变化率、备份策略及保存时间等。

1. 重复数据删除技术

重复数据删除技术是一种存储优化技术，可有效对数据进行压缩以实现对存储空间的优化。重复数据删除系统对数据指纹进行比对，若存在指纹相同的数据，则仅保存其中一份数据，删除其余重复数据，并将剩余重复数据以索引的形式进行保存^[5]。以存储重复数据元数据^[6]信息的形式代替实际存储，从而实现提高存储效率、提高传输速度、节省数据存储成本的目的^[7]。目前重复数据删除技术已大量应用于数据备份、远程灾备、归档存储中^[8]。其中现有的云存储重删系统主要有Lessfs和OpenDedup^[9]。

重复数据删除可分为文件级和数据块级的去重。文件级的数据重删技术即单一实例存储(single instance store, SIS)^[10]，是以文件大小为粒度，操作简单但效率不高^[11]。数据块级重删技术去重长度很小，可缩小到2~128 KB之间。目前针对数据块级数据去重有3种数据块分块算法^[12]，即固定长度分块算法、CDC变长分块算法和滑动块分块算法。固定长度分块算法采用预先设置好的分块长度分割文件，分割完成后对其进行弱校验值和MD5算法强校验值检测。CDC算法是应用Rabin指纹^[13]将文件切割成大小不一的分块。与固定长度分块算法不同的是，它是基于文件内容对文件进行分块，因此数据块长度是可变的。滑动块相似检测技术结合了可变分块长度和固定分块长度检测技术两者的优点，在现有的研究中发现，对于较大的文件，基于CDC算法的重复数据检测表现较好，滑动块技术更适用于粒度较小的情况。

2. 数据集和工具

2.1. 数据集概述

目前针对备份数据集的研究所使用的数据集大多涵盖的是周期较短或静态的快照。本文着眼于用户长期真实的有效数据，力求实现对用户实际使用情况的分析，推导结论并为以后的设计及研究工作起到一定的指导作用。本文研究的数据集是FSL(file systems and storage lab)提供的Homes数据集。

Homes数据集上的数据均来自Linux系统软件开发人员，他们在几个联合项目上共同从事开发工作。Homes数据集几乎包含了共享文件系统上每位用户主目录下的文件快照，在快照的收集过程中，利用Fs-hasher工具^[14]为每位用户创建一个每日快照(包括整个文件分块和不同平均块长度的分块)。本文选取并分析了从2013年1月22日-2013年6月17日共56.20 TB的数据，该数据使用7种不同长度的分块(2~128 KB)和整个文件分块的方式，以此来细致比对不同分块方式对重复数据删除的影响。为了减少快照收集的时间并降低收集后数据集的存储规模，研究选取了48-bit的MD5哈希算法。Homes数据集共覆盖了33个用户的数据，本文选取了其中最具代表的5个用户，使研究工作能够针对每个用户进行分析。虽然没有收集完整的文件内容，但丰富的元数据和大量的散列可以用以进行广泛的研究。

基于Homes数据集，本文进行了如下分析：1)比较不同文件大小下的重复数据删除率，寻找重删效率最高的文件大小；2)分析比较不同的备份策略(增量备份和完全备份)和不同的分块大小对备份数据集重删率的影响，寻找最高效的分块大小和备份策略；3)基于用户使用特征的分析，对具有相同背景和使用行为的用户备份数据进行分析，为集群存储的设计提供建议；4)比对不同类型的文件在不同分块大小下与其对应的重删率，分析不同分块下重复率差异的成因，以此对存储系统提供建议。

2.2. 数据分析工具

本文使用了开源的Fs-hasher工具包。该工具包主要包含fs-hasher和hf-stat，fs-hasher对文件系统进行扫描并收集包含丰富元数据信息的快照。该工具并不收集文件的实际内容，而是将每个文件按照一定长度进行分块并收集块对应的哈希值。fs-hasher可收集固定长度或可变长的分块以及每一个块的压缩率等，收集到的快照信息存储在哈希文件中。hf-stat工具用于解析由fs-hasher收集的哈希文件，该工具将哈希文件中包含的信息输出为可读形式，包括文件的哈希值、分块后的块哈希值、用户及其所在群组的信息以及文件的元数据信息等。hf-stat还提供了控制和过滤其输出的选项的功能，方便用户对输出信息进行筛选以便后期对特定信息的处理。

4. 结束语

重复数据删除技术能大规模地压缩数据量，从而节省冗余数据所带来的存储开销。不过，目前的数据重删技术大多针对小规模的静态快照或覆盖时间较短的快照，而针对长时间、大规模的数据集的研究较少。本文重在研究一个跨度6个月的公开数据集，并使用Fs-hasher工具包，从文件、数据块以及用户的角度进行研究，研究发现：1)整个文件分块在数据重删中表现不佳，因为大文件在数据集中占据大部分存储空间且具有很低的重复数据删除率；2)越小的数据分块并不总能节省存储空间，越小数据分块意味着更高的元数据存储开销，在设计重删系统时采用32 KB或更大的分块大小效果更佳；3)相似行为的用户拥有更多的相同数据，将这些用户组成一个集群可更大限度地实现重复数据删除；4)不同文件类型对不同文件分块大小的敏感度不一。设计重复数据删除系统时可将不同类型的文件进行差异性去重。本文的研究对重复数据删除系统的设计提供了建议，未来将对集群存储的重复数据删除进行研究。

参考文献 (15)

[1]	GANTZ J F, REINSEL D. Extracting value from chaos[R]. [S. l. ]: IDC White Paper, 2011.
[2]	MCKNIGHT J, ASARO T, BABINEAU B. Digital archiving: End-user survey and market forecast 2006-2010[R]. Milford: The Enterprise Strategy Group, 2006.
[3]	王国华. 高效重复数据删除技术研究[D]. 广州: 华南理工大学, 2014. WANG Guo-hua. Research on technologies for high-effect data deduplication[D]. Guangzhou: South China University of Technology, 2014.
[4]	李映刚. 重复数据删除技术在图片文件系统中的应用[D]. 成都: 成都理工大学, 2013. LI Ying-gang. The application of deduplication technology in picture file system[D]. Chengdu: Chengdu University of Technology, 2013.
[5]	张宗华, 屈英, 叶志佳, 等.基于多特征匹配和Bloomfilter的重复数据删除算法[J].深圳大学学报, 2016, 33(5):531-535. http://www.cqvip.com/QK/97969X/201608/669653354.html ZHANG Zong-hua, QU Ying, YE Zhi-jia, et al. Deduplication based on multi-feature matching and bloom filter[J]. Journal of Shenzhen University, 2016, 33(5):531-535. http://www.cqvip.com/QK/97969X/201608/669653354.html
[6]	王龙翔, 董小社, 张兴军, 等.内容分块算法中预期分块长度对重复数据删除率的影响[J].西安交通大学学报, 2016, 50(12):73-78. http://www.lmbe.seu.edu.cn/chenyuan/xsun/bioinfomatics/Web/CharpterThree/3.2.htm WANG Long-xiang, DONG Xiao-she, ZHANG Xing-jun, et al. Influence of expected chunk size on deduplication ratio in content defined chunking algorithm[J]. Journal of Xi'An Jiaotong University, 2016, 50(12):73-78. http://www.lmbe.seu.edu.cn/chenyuan/xsun/bioinfomatics/Web/CharpterThree/3.2.htm
[7]	敖莉, 舒继武, 李明强.重复数据删除技术[J].软件学报, 2010, 21(5):916-929. http://www.wanfangdata.com.cn/details/detail.do?_type=degree&id=Y2724872 AO Li, SHU Ji-wu, LI Ming-qiang. Data deduplication techniques[J]. Journal of Software, 2010, 21(5):916-929. http://www.wanfangdata.com.cn/details/detail.do?_type=degree&id=Y2724872
[8]	尚颖丹. 面向文件级重复数据删除的稀疏索引技术[D]. 长沙: 国防科学技术大学, 2012. SHANG Ying-dan. Sparse indexing for file-level de-duplication[D]. Changsha: National University of Defense Technology, 2012.
[9]	徐奕奕, 唐培和.基于分数阶Fourier变换的云存储系统重复数据删除算法[J].计算机科学, 2015, 42(7):174-177. doi: 10.11896/j.issn.1002-137X.2015.07.038 XU Yi-yi, TANG Pei-he. Duplicate data remove algorithm of cloud storage system based on fractional fourier transform[J]. Computer Science, 2015, 42(7):174-177. doi: 10.11896/j.issn.1002-137X.2015.07.038
[10]	吴鹏, 史芳芳.删除重复数据的一种数据备份方案[J].通信管理与技术, 2012(5):58-60. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zxtxjs201202013 WU Peng, SHI Fang-fang. A data backup scheme for deleted duplicated data[J]. Communications Management and Technology, 2012(5):58-60. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zxtxjs201202013
[11]	卞琛, 于炯, 修位蓉.基于回归检测的滑动块重复数据删除算法[J].新疆大学学报, 2017, 34(3):259-266. http://www.cqvip.com/QK/95200X/201602/667917750.html BIAN Chen, YU Jiong, XIU Wei-rong. A sliding blocking algorithm with regressrion-checking for duplicate data detection[J]. Journal of Xinjiang University, 2017, 34(3):259-266. http://www.cqvip.com/QK/95200X/201602/667917750.html
[12]	付印金, 肖侬, 刘芳.重复数据删除关键技术研究进展[J].计算机研究与发展, 2012, 49(1):12-20. http://www.cnki.com.cn/Article/CJFDTOTAL-SYDQ201104017.htm FU Yin-jin, XIAO Nong, LIU Fang. Research and development on key techniques of data deduplication[J]. Journal of Computer Research and Development, 2012, 49(1):12-20. http://www.cnki.com.cn/Article/CJFDTOTAL-SYDQ201104017.htm
[13]	RABIN M. Fingerprinting by random polynomials[R]. Cambridge: Technical Report, 1981.
[14]	ZHEN S, GEOFF K, SONAM M, et al. A long-term user-centric analysis of deduplication patterns[C]//MASS Storage Systems and Technologies. Santa Clara, CA: IEEE, 2016.
[15]	WALLACE G, DOUGLIS F, QIAN H, et al. Characteristics of backup workloads in production systems[C]//Usenix Conference on File and Storage Technologies. Berkeley: USENIX Association, 2012: 262-289.

[1]	刘志刚, 张国辉, 高月, 刘苗苗. 多因素引导的行人重识别数据增广方法研究 . 电子科技大学学报, 2024, 53(2): 235-242. doi: 10.12178/1001-0548.2023056
[2]	杨燕, 王滨, 李翠, 何雨莲. 高可靠性OTP存储控制器 . 电子科技大学学报, 2019, 48(5): 722-727. doi: 10.3969/j.issn.1001-0548.2019.05.010
[3]	姜春茂, 王启明, 申倩, 许美玉. 一种适合移动云节点的可靠存储模型 . 电子科技大学学报, 2016, 45(1): 113-117.
[4]	李孟, 曹晟, 秦志光. 基于Hadoop的小文件存储优化方案 . 电子科技大学学报, 2016, 45(1): 141-145. doi: 10.3969/j.issn.1001-0548.2016.01.024
[5]	郭畅, 沈晴霓, 吴中海. 防止数据泄露的云存储数据分布优化模型 . 电子科技大学学报, 2016, 45(1): 118-122. doi: 10.3969/j.issn.1001-0548.2016.01.020
[6]	段翰聪, 向小可, 吕鹏程. MUSE:一种面向云存储系统的高性能元数据存储引擎 . 电子科技大学学报, 2016, 45(2): 221-226.
[7]	杨扩军, 田书林, 宋金鹏, 蒋俊. 一种基于分段存储的三维映射方法 . 电子科技大学学报, 2015, 44(2): 239-244. doi: 10.3969/j.issn.1001-0548.2015.02.014
[8]	钟婷, 耿纪昭, 熊虎, 秦志光. 云存储中基于SBT的数据完整性验证机制 . 电子科技大学学报, 2014, 43(6): 929-933. doi: 10.3969/j.issn.1001-0548.2014.06.023
[9]	任飞, 刘贤洪, 秦志光. 智能电视安全存储数据访问方法 . 电子科技大学学报, 2014, 43(1): 144-148. doi: 10.3969/j.issn.1001-0548.2014.01.024
[10]	胡小方, 段书凯, 王丽丹, 李传东. 脉冲控制忆阻模拟存储器 . 电子科技大学学报, 2011, 40(5): 642-647. doi: 10.3969/j.issn.1001-0548.2011.05.001
[11]	唐伟, 郭伟. WSN聚合数据率约束最大生命期路由 . 电子科技大学学报, 2011, 40(1): 30-35. doi: 10.3969/j.issn.1001-0548.2011.01.006
[12]	边杏宾, 朱清新. 信息集中存储方式下的水印协议 . 电子科技大学学报, 2008, 37(4): 614-617.
[13]	李星毅, 包从剑, 施化吉. 数据仓库中的相似重复记录检测方法 . 电子科技大学学报, 2007, 36(6): 1273-1277.
[14]	黄继伟, 李云飞, 朱宏. 删失数据下的Fisher信息量 . 电子科技大学学报, 2006, 35(3): 423-425.
[15]	赵晓云, 杨华军, 邱昆. 三维信息存储读出信号振幅的计算机仿真 . 电子科技大学学报, 2005, 34(5): 692-695.
[16]	胥能, 徐洁, 李毅超. 基于XML的可扩展图片数据库的实现方法 . 电子科技大学学报, 2002, 31(6): 590-594.
[17]	沈伟慈. 一种基于模糊贝叶斯理论推测信元丢弃率分布的方法 . 电子科技大学学报, 1999, 28(4): 402-404.
[18]	何进, 杨传仁. AIN基片上重掺杂硼的多晶硅膜电阻率温度特性 . 电子科技大学学报, 1998, 27(1): 47-50.
[19]	钱炜宏, 李乐民. 反压信号的延迟对信元丢失率的影响 . 电子科技大学学报, 1998, 27(1): 5-9.
[20]	杨华军, 罗毅, 王华. 新型的磁光卡存储系统 . 电子科技大学学报, 1997, 26(4): 391-393.

留言板