A Novel Algorithm for Text Data Compression Based on Arithmetic Codec

LI Ying; CUI Yan-peng; GAO Xin-bo

doi:10.3969/j.issn.1001-0548.2016.06.009

A novel algorithm for text data compression is proposed based on arithmetic codec. The global parameters optimization is converted into the local parameter optimization, then Glomb code principle is used to solve the local optimization, and a parameter choice method is derived. The LZ77 scanning algorithm is improved in which a prediction code is proposed, and the prediction data is preserved. The parameters such as prediction data, offset, match data length and preserved text data are loaded into MQ codec in which the data can be compressed. To improve the compression efficiency, the corresponding compression algorithms and the context design algorithm are proposed. The proposed algorithm for text data compression is simulated and compared with Winzip and WinRAR. The results show that our compression algorithm has an advantage in compression effect over the Winzip for the data such as texts, word documents, C language program codes and images. Compared with WinRar, our algorithm achieved almost the same compression results for texts, word documents, C language program codes except images.

HTML

随着计算机技术和网络技术的发展，各种类型的数据层出不穷，海量的数据需要传输和存储。为了减少数据传输和存储的代价需要对数据进行压缩。根据不同的数据种类及重建质量要求，压缩算法也各不相同。比如语音压缩、图像压缩^[1-6]等，根据重建质量的不同要求，可以进行限失真压缩或者无失真压缩。

由于文本数据必须进行精确重建，只能进行无失真压缩。目前文本压缩算法众多，许多算法是针对各种不同类型的应用^[7-11]；广泛使用的文本压缩工具是WinRar和Winzip，这两种压缩算法涉及知识产权保护，详细编码过程未见公布，可能采用了预测编码、游程长度编码、LZ算法或者LZW等改进算法^[7-11]。而这些算法主要突出于文本搜索算法，其中LZW搜索算法需要建立码书^[9-10]，使用码书可以提高搜索速度，对于长串匹配数据而言，还可以有效减少LZ算法中的偏移量，利于提高编码效率。而这两种文本压缩算法使用的熵编码以及其他细节未见文献报道。

为了设计自主知识产权的文本压缩方法，本文拟采用原始LZ77算法，整个过程并不需要建立码表，目的主要在于尝试使用算术编码对文本数据扫描参数进行压缩，并为后续进一步研究奠定基础。

本文主要工作如下：提出了一种局部参数优化算法，从备选参数中选择合理的局部优化参数；对LZ77算法进行改进，增加了预测编码，并记录预测标记。预测编码标记为0和1组成的序列，使用已经编码的前面数据产生上下文，并使用算术编码器进行编码，能够有效提高编码效率。选择出的扫描参数，即偏移量、匹配数据长度和保留文本数据，都使用算术编码器进行编码，并根据各类数据的特点使用不同方法产生效应上下文。

3. 实验结果与分析

对所提出的文本压缩算法进行仿真和测试。采用4种文本数据对本算法性能进行测试，并与Winzip、WinRar压缩效率进行比较，具体结果如表 1所示。其中Test1是Word文档，Test2是纯文字文档，Test3是C语言程序代码(JPEG-LS核心算法)，Test4是Lena图像。

byte
文件名(字节数)	Winzip	WinRar	本文算法
Test1(333 824)	72 205	63 523	63 408
Test2(37 492)	36 844	36 173	35 166
Test3(13 525)	3 469	3 337	3 426
Test4(262 144)	222 707	168 938	183 726

由表 1结果可以看出，对这4类不同类型数据，本文算法压缩性能明显好于Winzip，而在Word文档或者纯文字文档压缩方面与WinRar相当或者略好；而在C语言程序代码压缩方面，本文算法也与WinRar相当或者略低，而对图像压缩进行压缩时，本文压缩效率与WinRar还有一定差距。

与WinRar比较结果可以看出，本文算法对图像数据压缩没有取得好的效果，这是因为本文算法没有进一步使用数据之间的相关性进行编码，因此如何进一步利用相关性进行编码值得进一步研究。

为了考察参数$\alpha $变化对压缩效率影响，选择参数k₁=10，k₂=6，使用Test1进行测试，具体结果如表 2所示。从表 2可以看出，当$\alpha $大于一定值时对压缩效率影响非常有限。从式(7)可以看出，只有当偏移量很大时，参数选择才有意义，其目的是去除那些偏移量很大，而匹配字节长度较小的那些参数。而当$\alpha $大于一定值时，选择参数的差异并不是太大，所以压缩效率变化较小。

byte
$\alpha $	压缩文件长度
4.0	65 987
5.0	64 635
5.5	63 648
6.0	63 632
6.20	63 408
6.50	63 591
7	63 574
8.0	63 664
9	63 606

当$\alpha $取值较小时，参数选择的变化就体现出来，一些偏移量很大而匹配字节长度有限的参数被选择，从而降低了编码效率，编码输出文件长度增加较大，从而影响总体编码效率。

为了考察Glomb参数选择对压缩效率的影响，取$\alpha = 6.2$，${k_2} = 6$，改变参数${k_1}$，使用Test1进行测试，结果如表 3所示。

byte
k₁	压缩文件长度
6	66 724
7	65 819
8	64 867
9	64 509
10	63 408
11	63 415
12	63 354
13	63 431

从表 3可以看出，参数的变化对压缩效率有一定影响，参数小于10时，随着参数减小，压缩效率明显降低；而当参数大于等于10时，由于偏移量大而匹配数据长度小的参数被去除，压缩效率没有明显变化。

为了观察k₂变化对压缩效率影响，取$\alpha = 6.2$，k₁=10，改变参数k₂，使用Test1进行测试，实验结果如表 4所示。

byte
k₂	压缩文件长度
3	63 612
4	63 625
5	63 618
6	63 408
7	63 617
8	63 671
9	64 867
10	64 557

从表 4可以看出，随着k₂的变化，对压缩效率有一定影响，但是不是十分明显。从式(7)可看出，由于大偏移量受到k₁约束，k₂取值只是辅助参数选择的细节，且受到α变化的制约，因此对总体效率的影响不是很大，其取值大小与匹配字节长度小的参数选择产生一定影响。当其取值太大，会增加小匹配字节长度选取的门槛，所以对压缩效率影响较大；而取值较小时，其影响反而不是太大。

综合k₁、k₂变化对压缩效率影响，结果与式(7)说描述的含义是相符的，即：

1) k₁主要是限制偏移量大而匹配字节长度较小的参数，以提高编码效率；当其取值较小时，偏移量大，匹配字节长度较小的参数被选择，从而影响编码效率；而取值较大时，只有极少的参数被限制，对压缩效率的影响反而较小。因为匹配字节长度较大的参数，k₁变化对其没有约束。

2) k₂对偏移量变化没有限制作用，主要辅助设置匹配字节长度门槛。取值越大，更多长度较小的参数被去除，效率降低；而较小的取值，反而对结果影响不大。

4. 结论

本文提出了一种基于算术编码的文本数据压缩算法，与Winzip、WinRar算法相比，在对纯文本数据、Word文档数据、C语言程序代码进行压缩时，本文算法优于WinZip，与WinRar算法相当或略好，但在图像压缩方面的性能与WinRar相比略有不足。当然，本文算法还存在以下不足：一方面，简单使用LZ77扫描算法，从而导致偏移量数据较大，不利于后续数据压缩；另一方面，没有对相关性数据进行进一步处理，对诸如图像数据这类关联性很强的数据压缩效率不足。针对上述不足，今后将考虑更好的扫描算法，以提高压缩效率；对数据的相关性进行检测，对相关性强的数据进行数据分解，进一步提高编码效率。

Reference (11)

[1]	TAUBMAN D. High Performance scalable image compression with EBCOT[J]. IEEE Trans on Image Processing, 2000, 9(7): 1158-1170. doi: 10.1109/83.847830
[2]	ISO/IEC. Image coding specification[EB/OL].[2015-07-21]. http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=51609.
[3]	DENG Jia-xian, DENG Hai-tao. An image joint compression-encryption algorithm based on adaptive arithmetic coding[J]. Chin Phys B, 2013, 22(9): 094202-1. doi: 10.1088/1674-1056/22/9/094202
[4]	WU J Z, WANG Y J, DING L P. Improving performance of network covert timing channel through Huffman coding[J]. Mathematical and Computer Modelling, 2012, 55(1-2): 69-79. doi: 10.1016/j.mcm.2011.01.051
[5]	邓家先, 任玉莉. 基于改进零树编码的图像联合压缩加密算法[J]. 光子学报, 2013, 42(1): 121-126. doi: 10.3788/gzxb	DENG Jia-xian, REN Yu-li. Image joint compression-encryption algorithm based on improved zero-tree coding[J]. Acta Photonica Sinica, 2013, 42(1): 121-126. doi: 10.3788/gzxb
[6]	谢耀华, 汤晓安, 孙茂印. 基于分类重排LZW的图像无损压缩算法[J]. 中国图象图形学报, 2010, 15(2): 236-241.	XIE Yao-hua, TANG Xiao-an, SUN Mao-yin. A lossless image compression algorithm based on classification, re-ordering and LZW[J]. Journal of Image and Graphics, 2010, 15(2): 236-241.
[7]	王忠效. 汉语文本压缩研究及其应用[J]. 中文信息学报, 1997, 11(3): 57-64.	WANG Zhong-xiao. Research and application of chinese text compression[J]. Journal of Chinese Information Processing, 1997, 11(3): 57-64.
[8]	特日跟, 李雄飞, 李军. 基于整数数据的文档压缩编码方案[J]. 吉林大学学报, 2016, 46(1): 228-234.	TE Ri-gen, LI Xiong-fei, LI Jun. Document compression coding scheme based on integer data[J]. Journal of Jilin University, 2016, 46(1): 228-234.
[9]	ZIV J, LEMPEL A. Compression of individual sequences via variable-rate coding[J]. IEEE Transactions on Information Theory, 1978, 24(5): 530-536. doi: 10.1109/TIT.1978.1055934
[10]	ZIV J, LEMPEL A. A universal algorithm for sequential data compression[J]. IEEE Transactions on Information Theory, 1977, 23(3): 337-343. doi: 10.1109/TIT.1977.1055714
[11]	常为领, 方兴滨, 云晓春. 一种支持ANSI编码的中文文本压缩算法[J]. 中文信息学报, 2010, 24(5): 96-105.	CHANG Wei-ling, FANG Xin-bin, YUN Xiao-chun. A chinese text compression algorithm for ANSI coding[J]. Journal of Chinese Information Processing, 2010, 24(5): 96-105.

A Novel Algorithm for Text Data Compression Based on Arithmetic Codec

doi: 10.3969/j.issn.1001-0548.2016.06.009

Abstract

References

Proportional views

通讯作者: 陈斌, bchen63@163.com

Article Metrics

Related

Proportional views