一种基于算术编码的文本数据压缩算法

李英; 崔艳鹏; 高新波

doi:10.3969/j.issn.1001-0548.2016.06.009

一种基于算术编码的文本数据压缩算法

doi: 10.3969/j.issn.1001-0548.2016.06.009

1.
西安电子科技大学电子工程学院西安 710071
2.
西安电子科技大学网络行为研究中心西安 710071

基金项目:

国家自然科学基金 61571354

详细信息

作者简介:
李英(1976-), 女, 博士生, 高级工程师, 主要从事图像处理及编码、移动通信技术等方面的研究

中图分类号: TP391.1

A Novel Algorithm for Text Data Compression Based on Arithmetic Codec

1.
School of Electronic Engineering, Xidian University Xi'an 710071
2.
Institute for Internet Behavior, Xidian University Xi'an 710071

摘要: 提出了一种基于算术编码的文本数据压缩算法，将扫描产生的偏移量、匹配数据长度等全局优化问题转化为局部优化问题，并从Glomb编码思路出发，推导出一种参数选择算法；对LZ77算法进行修正，提出一种预测编码方法，获得预测参数。对预测参数、偏移量、数据匹配长度、保留文本数据使用MQ算术编码器进行编码，针对不同类型数据，设计出不同的编码算法和相应的上下文算法。对算法进行仿真，并与Winzip、WinRar压缩效率进行比较，结果表明对纯文本数据、Word文档数据、C语言程序代码，图像数据等，该压缩算法优于Winzip；在纯文本数据、Word文档数据、C语言程序代码压缩方面与WinRar相当或者略好，但在图像压缩方面的性能与WinRar相比略有不足。
- 算术编码 /
- 参数优化 /
- 预测编码 /
- 文本数据压缩
Abstract: A novel algorithm for text data compression is proposed based on arithmetic codec. The global parameters optimization is converted into the local parameter optimization, then Glomb code principle is used to solve the local optimization, and a parameter choice method is derived. The LZ77 scanning algorithm is improved in which a prediction code is proposed, and the prediction data is preserved. The parameters such as prediction data, offset, match data length and preserved text data are loaded into MQ codec in which the data can be compressed. To improve the compression efficiency, the corresponding compression algorithms and the context design algorithm are proposed. The proposed algorithm for text data compression is simulated and compared with Winzip and WinRAR. The results show that our compression algorithm has an advantage in compression effect over the Winzip for the data such as texts, word documents, C language program codes and images. Compared with WinRar, our algorithm achieved almost the same compression results for texts, word documents, C language program codes except images.
- arithmetic code /
- parameters optimization /
- predict code /
- text data compression

图 1 文本压缩结构框图

下载: 全尺寸图片幻灯片

图 2 改进算法结构框图

下载: 全尺寸图片幻灯片

图 3 MQ算术编码器

下载: 全尺寸图片幻灯片

表 1 算法比较

byte
文件名(字节数)	Winzip	WinRar	本文算法
Test1(333 824)	72 205	63 523	63 408
Test2(37 492)	36 844	36 173	35 166
Test3(13 525)	3 469	3 337	3 426
Test4(262 144)	222 707	168 938	183 726

下载: 导出CSV

表 2 参数$\alpha $变化对压缩效率影响

byte
$\alpha $	压缩文件长度
4.0	65 987
5.0	64 635
5.5	63 648
6.0	63 632
6.20	63 408
6.50	63 591
7	63 574
8.0	63 664
9	63 606

下载: 导出CSV

表 3 参数k₁变化对压缩效率影响

byte
k₁	压缩文件长度
6	66 724
7	65 819
8	64 867
9	64 509
10	63 408
11	63 415
12	63 354
13	63 431

下载: 导出CSV

表 4 参数k₂变化对压缩效率影响

byte
k₂	压缩文件长度
3	63 612
4	63 625
5	63 618
6	63 408
7	63 617
8	63 671
9	64 867
10	64 557

下载: 导出CSV

[1]	TAUBMAN D. High Performance scalable image compression with EBCOT[J]. IEEE Trans on Image Processing, 2000, 9(7):1158-1170. doi: 10.1109/83.847830
[2]	ISO/IEC. Image coding specification[EB/OL].[2015-07-21]. http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=51609.
[3]	DENG Jia-xian, DENG Hai-tao. An image joint compression-encryption algorithm based on adaptive arithmetic coding[J]. Chin Phys B, 2013, 22(9):094202-1-094202-6. doi: 10.1088/1674-1056/22/9/094202
[4]	WU J Z, WANG Y J, DING L P, et al. Improving performance of network covert timing channel through Huffman coding[J]. Mathematical and Computer Modelling, 2012, 55(1-2):69-79. doi: 10.1016/j.mcm.2011.01.051
[5]	邓家先, 任玉莉.基于改进零树编码的图像联合压缩加密算法[J].光子学报, 2013, 42(1):121-126. doi: 10.3788/gzxb DENG Jia-xian, REN Yu-li. Image joint compression-encryption algorithm based on improved zero-tree coding[J]. Acta Photonica Sinica, 2013, 42(1):121-126. doi: 10.3788/gzxb
[6]	谢耀华, 汤晓安, 孙茂印, 等.基于分类重排LZW的图像无损压缩算法[J].中国图象图形学报, 2010, 15(2):236-241. http://www.cnki.com.cn/Article/CJFDTOTAL-ZGTB201002010.htm XIE Yao-hua, TANG Xiao-an, SUN Mao-yin, et al. A lossless image compression algorithm based on classification, re-ordering and LZW[J]. Journal of Image and Graphics, 2010, 15(2):236-241. http://www.cnki.com.cn/Article/CJFDTOTAL-ZGTB201002010.htm
[7]	王忠效.汉语文本压缩研究及其应用[J].中文信息学报, 1997, 11(3):57-64. http://www.cnki.com.cn/Article/CJFDTOTAL-MESS703.007.htm WANG Zhong-xiao. Research and application of chinese text compression[J]. Journal of Chinese Information Processing, 1997, 11(3):57-64. http://www.cnki.com.cn/Article/CJFDTOTAL-MESS703.007.htm
[8]	特日跟, 李雄飞, 李军.基于整数数据的文档压缩编码方案[J].吉林大学学报, 2016, 46(1):228-234. http://www.cnki.com.cn/Article/CJFDTOTAL-JLGY201601034.htm TE Ri-gen, LI Xiong-fei, LI Jun. Document compression coding scheme based on integer data[J]. Journal of Jilin University, 2016, 46(1):228-234. http://www.cnki.com.cn/Article/CJFDTOTAL-JLGY201601034.htm
[9]	ZIV J, LEMPEL A. Compression of individual sequences via variable-rate coding[J]. IEEE Transactions on Information Theory, 1978, 24(5):530-536. doi: 10.1109/TIT.1978.1055934
[10]	ZIV J, LEMPEL A. A universal algorithm for sequential data compression[J]. IEEE Transactions on Information Theory, 1977, 23(3):337-343. doi: 10.1109/TIT.1977.1055714
[11]	常为领, 方兴滨, 云晓春, 等.一种支持ANSI编码的中文文本压缩算法[J].中文信息学报, 2010, 24(5):96-105. http://www.cnki.com.cn/Article/CJFDTOTAL-MESS201005018.htm CHANG Wei-ling, FANG Xin-bin, YUN Xiao-chun, et al. A chinese text compression algorithm for ANSI coding[J]. Journal of Chinese Information Processing, 2010, 24(5):96-105. http://www.cnki.com.cn/Article/CJFDTOTAL-MESS201005018.htm

[1]	周江平, 周媛媛, 周学军, 李洁琼. 基于BP神经网络的测量设备无关协议参数预测 . 电子科技大学学报, 2024, 53(): 1-6. doi: 10.12178/1001-0548.2023011
[2]	叶远浓, 梁定发, 曾柱. DBEncRNA：细菌必需非编码RNA数据库 . 电子科技大学学报, 2022, 51(3): 348-352. doi: 10.12178/1001-0548.2021389
[3]	杜俊逸, 肖磊, 周志恒. 基于部分空间耦合扰乱编码的数据链信息安全技术 . 电子科技大学学报, 2021, 50(3): 332-338. doi: 10.12178/1001-0548.2020444
[4]	罗瑜. 纹理感知多模式编码的帧存有损压缩算法研究 . 电子科技大学学报, 2021, 50(1): 8-13. doi: 10.12178/1001-0548.2019115
[5]	胡青松, 张亮, 丁娟, 李世银. 人体动作数据编码与CNN精确识别 . 电子科技大学学报, 2020, 49(3): 473-480. doi: 10.12178/1001-0548.2019108
[6]	唐东明, 卢显良. 用于网络编码优化的改进量子进化算法 . 电子科技大学学报, 2015, 44(2): 215-220. doi: 10.3969/j.issn.1001-0548.2015.02.010
[7]	史治平, 唐发建, 晏辉, 龚万春. 编码辅助载波同步算法的优化设计 . 电子科技大学学报, 2012, 41(3): 342-347. doi: 10.3969/j.issn.1001-0548.2012.03.003
[8]	王静, 刘向阳, 施玉晨, 王新梅. 并行中继网络中复数域网络编码的优化设计方案 . 电子科技大学学报, 2011, 40(4): 512-518.
[9]	牛玉峰, 庄奕琪, 徐飞. 交织和BCH编码对蓝牙2.0数据传输性能的改善 . 电子科技大学学报, 2010, 39(2): 204-208,199. doi: 10.3969/j.issn.1001-0548.2010.02.011
[10]	雷维嘉, 谢显中, 李广军. LDPC编码与空时编码相结合的编码协作方法 . 电子科技大学学报, 2009, 38(1): 21-24.
[11]	姚敏, 赵敏. 改进的高效EZW遥感图像压缩方法研究 . 电子科技大学学报, 2009, 38(4): 525-528. doi: 10.3969/j.issn.1001-0548.2009.04.012
[12]	李学华, 李振松, 杨大成, 缪旻. LDPC编码的最优化HARQ方案研究 . 电子科技大学学报, 2008, 37(5): 653-656.
[13]	艾未华, 黄云仙, 宋自林. 天气雷达回波数据的并行自适应编码 . 电子科技大学学报, 2007, 36(4): 703-705,708.
[14]	傅彦, 周俊临, 吴跃. 快速神经网络无损压缩方法研究 . 电子科技大学学报, 2007, 36(6): 1245-1248.
[15]	王玉, 饶妮妮. 基于傅里叶技术快速预测DNA序列编码区 . 电子科技大学学报, 2006, 35(5): 837-840.
[16]	郑勇, 周正华, 朱维乐. 一种快速零树编码的小波图像压缩算法 . 电子科技大学学报, 2001, 30(4): 331-334.
[17]	傅寅飞, 刘亚康, 朱学勇. 集群通信中的代数CELP语音压缩编码 . 电子科技大学学报, 2000, 29(6): 573-577.
[18]	施荣华, 胡湘陵. 密钥共享方案中欺骗者的认定 . 电子科技大学学报, 2000, 29(1): 38-40.
[19]	肖忠, 刘钊, 向敬成. 基于Haar小波变换的无失真图像压缩 . 电子科技大学学报, 2000, 29(5): 475-478.
[20]	郑伟强, 赵志钦, 黄顺吉. 合成孔径雷达极坐标数据编码器 . 电子科技大学学报, 1997, 26(1): 21-23.

点击查看大图

图(3) / 表(4)

计量

文章访问数: 4234
HTML全文浏览量: 1227
PDF下载量: 276
被引次数: 0

全文HTML

随着计算机技术和网络技术的发展，各种类型的数据层出不穷，海量的数据需要传输和存储。为了减少数据传输和存储的代价需要对数据进行压缩。根据不同的数据种类及重建质量要求，压缩算法也各不相同。比如语音压缩、图像压缩^[1-6]等，根据重建质量的不同要求，可以进行限失真压缩或者无失真压缩。

由于文本数据必须进行精确重建，只能进行无失真压缩。目前文本压缩算法众多，许多算法是针对各种不同类型的应用^[7-11]；广泛使用的文本压缩工具是WinRar和Winzip，这两种压缩算法涉及知识产权保护，详细编码过程未见公布，可能采用了预测编码、游程长度编码、LZ算法或者LZW等改进算法^[7-11]。而这些算法主要突出于文本搜索算法，其中LZW搜索算法需要建立码书^[9-10]，使用码书可以提高搜索速度，对于长串匹配数据而言，还可以有效减少LZ算法中的偏移量，利于提高编码效率。而这两种文本压缩算法使用的熵编码以及其他细节未见文献报道。

为了设计自主知识产权的文本压缩方法，本文拟采用原始LZ77算法，整个过程并不需要建立码表，目的主要在于尝试使用算术编码对文本数据扫描参数进行压缩，并为后续进一步研究奠定基础。

本文主要工作如下：提出了一种局部参数优化算法，从备选参数中选择合理的局部优化参数；对LZ77算法进行改进，增加了预测编码，并记录预测标记。预测编码标记为0和1组成的序列，使用已经编码的前面数据产生上下文，并使用算术编码器进行编码，能够有效提高编码效率。选择出的扫描参数，即偏移量、匹配数据长度和保留文本数据，都使用算术编码器进行编码，并根据各类数据的特点使用不同方法产生效应上下文。

3. 实验结果与分析

对所提出的文本压缩算法进行仿真和测试。采用4种文本数据对本算法性能进行测试，并与Winzip、WinRar压缩效率进行比较，具体结果如表 1所示。其中Test1是Word文档，Test2是纯文字文档，Test3是C语言程序代码(JPEG-LS核心算法)，Test4是Lena图像。

表 1 算法比较

byte
文件名(字节数)	Winzip	WinRar	本文算法
Test1(333 824)	72 205	63 523	63 408
Test2(37 492)	36 844	36 173	35 166
Test3(13 525)	3 469	3 337	3 426
Test4(262 144)	222 707	168 938	183 726

由表 1结果可以看出，对这4类不同类型数据，本文算法压缩性能明显好于Winzip，而在Word文档或者纯文字文档压缩方面与WinRar相当或者略好；而在C语言程序代码压缩方面，本文算法也与WinRar相当或者略低，而对图像压缩进行压缩时，本文压缩效率与WinRar还有一定差距。

与WinRar比较结果可以看出，本文算法对图像数据压缩没有取得好的效果，这是因为本文算法没有进一步使用数据之间的相关性进行编码，因此如何进一步利用相关性进行编码值得进一步研究。

为了考察参数$\alpha $变化对压缩效率影响，选择参数k₁=10，k₂=6，使用Test1进行测试，具体结果如表 2所示。从表 2可以看出，当$\alpha $大于一定值时对压缩效率影响非常有限。从式(7)可以看出，只有当偏移量很大时，参数选择才有意义，其目的是去除那些偏移量很大，而匹配字节长度较小的那些参数。而当$\alpha $大于一定值时，选择参数的差异并不是太大，所以压缩效率变化较小。

表 2 参数$\alpha $变化对压缩效率影响

byte
$\alpha $	压缩文件长度
4.0	65 987
5.0	64 635
5.5	63 648
6.0	63 632
6.20	63 408
6.50	63 591
7	63 574
8.0	63 664
9	63 606

当$\alpha $取值较小时，参数选择的变化就体现出来，一些偏移量很大而匹配字节长度有限的参数被选择，从而降低了编码效率，编码输出文件长度增加较大，从而影响总体编码效率。

为了考察Glomb参数选择对压缩效率的影响，取$\alpha = 6.2$，${k_2} = 6$，改变参数${k_1}$，使用Test1进行测试，结果如表 3所示。

表 3 参数k₁变化对压缩效率影响

byte
k₁	压缩文件长度
6	66 724
7	65 819
8	64 867
9	64 509
10	63 408
11	63 415
12	63 354
13	63 431

从表 3可以看出，参数的变化对压缩效率有一定影响，参数小于10时，随着参数减小，压缩效率明显降低；而当参数大于等于10时，由于偏移量大而匹配数据长度小的参数被去除，压缩效率没有明显变化。

为了观察k₂变化对压缩效率影响，取$\alpha = 6.2$，k₁=10，改变参数k₂，使用Test1进行测试，实验结果如表 4所示。

表 4 参数k₂变化对压缩效率影响

byte
k₂	压缩文件长度
3	63 612
4	63 625
5	63 618
6	63 408
7	63 617
8	63 671
9	64 867
10	64 557

从表 4可以看出，随着k₂的变化，对压缩效率有一定影响，但是不是十分明显。从式(7)可看出，由于大偏移量受到k₁约束，k₂取值只是辅助参数选择的细节，且受到α变化的制约，因此对总体效率的影响不是很大，其取值大小与匹配字节长度小的参数选择产生一定影响。当其取值太大，会增加小匹配字节长度选取的门槛，所以对压缩效率影响较大；而取值较小时，其影响反而不是太大。

综合k₁、k₂变化对压缩效率影响，结果与式(7)说描述的含义是相符的，即：

1) k₁主要是限制偏移量大而匹配字节长度较小的参数，以提高编码效率；当其取值较小时，偏移量大，匹配字节长度较小的参数被选择，从而影响编码效率；而取值较大时，只有极少的参数被限制，对压缩效率的影响反而较小。因为匹配字节长度较大的参数，k₁变化对其没有约束。

2) k₂对偏移量变化没有限制作用，主要辅助设置匹配字节长度门槛。取值越大，更多长度较小的参数被去除，效率降低；而较小的取值，反而对结果影响不大。

4. 结论

本文提出了一种基于算术编码的文本数据压缩算法，与Winzip、WinRar算法相比，在对纯文本数据、Word文档数据、C语言程序代码进行压缩时，本文算法优于WinZip，与WinRar算法相当或略好，但在图像压缩方面的性能与WinRar相比略有不足。当然，本文算法还存在以下不足：一方面，简单使用LZ77扫描算法，从而导致偏移量数据较大，不利于后续数据压缩；另一方面，没有对相关性数据进行进一步处理，对诸如图像数据这类关联性很强的数据压缩效率不足。针对上述不足，今后将考虑更好的扫描算法，以提高压缩效率；对数据的相关性进行检测，对相关性强的数据进行数据分解，进一步提高编码效率。

参考文献 (11)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

一种基于算术编码的文本数据压缩算法

doi: 10.3969/j.issn.1001-0548.2016.06.009

作者简介:
李英(1976-), 女, 博士生, 高级工程师, 主要从事图像处理及编码、移动通信技术等方面的研究

A Novel Algorithm for Text Data Compression Based on Arithmetic Codec

计量

一种基于算术编码的文本数据压缩算法

doi: 10.3969/j.issn.1001-0548.2016.06.009

1. 西安电子科技大学电子工程学院西安 710071

2. 西安电子科技大学网络行为研究中心西安 710071

作者简介:
李英(1976-), 女, 博士生, 高级工程师, 主要从事图像处理及编码、移动通信技术等方面的研究

English Abstract

A Novel Algorithm for Text Data Compression Based on Arithmetic Codec

1. School of Electronic Engineering, Xidian University Xi'an 710071

2. Institute for Internet Behavior, Xidian University Xi'an 710071

全文HTML

1.1. 基于Glomb编码的优化参数选取

1.2. 预测编码

目录

期刊在线

编辑办公

友情链接

留言板

一种基于算术编码的文本数据压缩算法

doi: 10.3969/j.issn.1001-0548.2016.06.009

作者简介: 李英(1976-), 女, 博士生, 高级工程师, 主要从事图像处理及编码、移动通信技术等方面的研究

A Novel Algorithm for Text Data Compression Based on Arithmetic Codec

计量

出版历程

一种基于算术编码的文本数据压缩算法

doi: 10.3969/j.issn.1001-0548.2016.06.009

1. 西安电子科技大学电子工程学院 西安 710071 2. 西安电子科技大学网络行为研究中心 西安 710071

作者简介: 李英(1976-), 女, 博士生, 高级工程师, 主要从事图像处理及编码、移动通信技术等方面的研究

English Abstract

A Novel Algorithm for Text Data Compression Based on Arithmetic Codec

1. School of Electronic Engineering, Xidian University Xi'an 710071 2. Institute for Internet Behavior, Xidian University Xi'an 710071

全文HTML

1.1. 基于Glomb编码的优化参数选取

1.2. 预测编码

目录

期刊在线

编辑办公

友情链接

作者简介:
李英(1976-), 女, 博士生, 高级工程师, 主要从事图像处理及编码、移动通信技术等方面的研究

1. 西安电子科技大学电子工程学院西安 710071

2. 西安电子科技大学网络行为研究中心西安 710071

作者简介:
李英(1976-), 女, 博士生, 高级工程师, 主要从事图像处理及编码、移动通信技术等方面的研究

1. School of Electronic Engineering, Xidian University Xi'an 710071

2. Institute for Internet Behavior, Xidian University Xi'an 710071