-
2019年,中国电信发布的《中国电信8k智能机顶盒白皮书20191121》明确提出对8K视频的要求。在市场需求逐渐明确的同时,视频编解码组织也推出了对8K分辨率的视频编解码标准[1],如AV1、VVC和AVS3等。同年,5G技术得到了大规模发展,为大量数据的实时无线传输提供了技术保障。随着“市场+技术”的驱动,视频图像的主流分辨率从4K发展到8K。
图像分辨率的增大直接增加了DDR的读写需求,为了不降低图像主观性能质量的同时有效降低视频带宽,基于帧存技术[2-4]的轻量级视频压缩技术被提出,包括无损压缩[5-7]和有损压缩[8-9]。相对无损压缩技术,有损压缩增加了视频残差的量化环节,即在尽量降低图像峰值信噪(Peak signal to noise ratio, PSNR)的同时,尽可能地提升压缩效率[10-11]。在该研究中,内容感知自适应量化的帧存压缩技术[12](parallel content aware adaptive equantization oriented lossy frame memory recompression for HEVC, CAQO)被提出,其对有损压缩的研究最为优秀。CAQO首先在7个纹理方向中自适应的找到最优预测方向,并计算得到最优预测残差(prediction residual, PR),然后根据率失真模型计算量化参数(quantize parameter, QP),接着利用QP对PR进行编码前的量化操作,计算得到量化残差(quantize residual, QR),最后根据一元指数哥伦布编码算法完成QR的熵编码。
-
CAQO算法[13-14]包含方向性预测、离散平稳高斯率失真模型和哥伦布一元编码3个子算法模块,编码单元(coding unit, CU)为block 16×16,子模块算法细节分析如下。
-
如图1所示,根据以下步骤,通过当前预测像素附近已重建像素计算得到PR,其中Px,y为当前像素。
首先,计算区域A内的水平垂直梯度值DIRAH和DIRAV,区域B内的水平垂直梯度值DIRBH和DIRBV,计算如式(1)所示。
接着,将DIRAV、DIRAH、DIRBV、DIRBH代入式(2)得到DVMAX、DHMAX,并根据DVMAX和DHMAX之比得到预测方向θ。
最后,根据θ是否为预测方向的主方向,选取或计算得到参考像素,即若θ为主方向,则直接选取对应方向的临近像素作为参考像素;若θ为辅方向,则计算该方向临近像素值之和的均值作为参考像素。
$${\left\{ \begin{aligned} & {\rm{DI}}{{\rm{R}}_{\rm{BH}}} = {\rm{Pi{x}}}_{{x} - 2,{y}} + {\rm{Pi{x}}}_{x - 1,y} - {\rm{Pi{x}}}_{x - 2,{{y}} - 1} - {\rm{Pi{x}}}_{x - 1,y - 1} \\ & {\rm{DI}}{{\rm{R}}_{\rm{AH}}} = {\rm{Pi{x}}}_{x - 1,y - 1} + {\rm{Pi{x}}}_{x,y - 1} - {\rm{Pi{x}}}_{x - 1,y - 2} - {\rm{Pi{x}}}_{x,y - 2} \\ & {\rm{DI}}{{\rm{R}}_{\rm{BV}}} = {\rm{Pi{x}}}_{x - 1,y - 1} + {\rm{Pi{x}}}_{x - 1,y} - {\rm{Pi{x}}}_{x - 2,y - 1} - {\rm{Pi{x}}}_{x - 2,y} \\ & {\rm{DI}}{{\rm{R}}_{\rm{AV}}} = {\rm{Pi{x}}}_{x,y - {2}} + {\rm{Pi{x}}}_{{x},{y} - 1} - {\rm{Pi{x}}}_{x - 1,y - 2} - {\rm{Pi{x}}}_{x - 1,y - 1} \end{aligned} \right.}$$ (1) $${\begin{aligned} & {{{D}}_{\rm{MAX}}} = {\rm{MAX}}((|{{\rm{DIR}}_{\rm{AH}}}| + |{{\rm{DIR}}_{\rm{AV}}}|),(|{{\rm{DIR}}_{\rm{BH}}}| + |{{\rm{DIR}}_{\rm{BV}}}|)) \\ & \theta = \left\{ { {\begin{aligned} & {{\text{主方向}}\;\;{{45^\circ}}\quad\;\;\;{\rm{if}}\;\;1/2 < \eta ({{{D}}_{\rm{VMAX}}}/{{{D}}_{\rm{HMAX}}}) \leqslant 2} \\ & {{\text{辅方向}}\;\;{{67.5^\circ}}\quad\;\,{\rm{if}}\;\;{2} < \eta ({{{D}}_{\rm{VMAX}}}/{{{D}}_{\rm{HMAX}}}) \leqslant 4} \\ & {{\text{主方向}}\;\;{{90^\circ}}\quad\;\;\;{\rm{if}}\;\;|\eta ({{{D}}_{\rm{VMAX}}}/{{{D}}_{\rm{HMAX}}})| > 4} \\ & {{\text{辅方向}}\;\;{{112.5^\circ}}\quad{\rm{if}}\;\; - 4 < \eta ({{{D}}_{\rm{VMAX}}}/{{{D}}_{\rm{HMAX}}}) \leqslant - 2} \\ & {{\text{主方向}}\;\;{{135^\circ}}\quad\;\;{\rm{if}}\;\; - 2 < \eta ({{{D}}_{\rm{VMAX}}}/{{{D}}_{\rm{HMAX}}}) \leqslant - 1} \\ & {{\text{辅方向}}\;\;{{157.5^\circ}}\;{\rm{if}}\;\; - 1 < \eta ({{{D}}_{\rm{VMAX}}}/{{{D}}_{\rm{HMAX}}}) \leqslant - 1/4} \\ & {{\text{主方向}}\;\;{{180^\circ}}\;\;\;{\rm{if}}\;\; - 1/4 < \eta ({{{D}}_{\rm{VMAX}}}/{{{D}}_{\rm{HMAX}}}) \leqslant 1/2} \end{aligned}} } \right. \\ \end{aligned} }$$ (2) -
CAQO采用离散平稳高斯[15]率失真函数[16],通过式(3),以QP为媒介,在图像质量Distortion和压缩率rate之间进行动态的平衡,如式(3)所示。
$$\left\{ \begin{aligned} & {\rm{Distortion}} = {\rm{MIN}}({\rm{Q{S}}^2}/12,\varPsi + \varDelta ) \\ & {\rm{Rate}} = {\rm{MAX}}(0,0.5{\log _2}(\varPsi + \varDelta 12/({\rm{Q{S}}^2}))) \end{aligned} \right.$$ (3) 式中,离散变换块Ψ和量化噪声的功率谱密度
$\varDelta$ 由Mvx和Mvy计算得到,并由式(4)计算得到QP,此时像素的QR为PR右移QP个bit。$$\begin{aligned} &\quad \qquad \qquad \qquad \qquad \varDelta = {2^{2 {\rm{QP}}}}/\alpha \\ & \qquad \qquad \qquad {{\bf \varTheta} _X}{\rm{ = }}({\rm{|}}{\rm{Mv}}{{\rm{x}}_{{\rm{x}},y}}{\rm{| > 8}})?2:1 \\ & \qquad \qquad \qquad {\bf \varTheta _Y}{\rm{ = }}({\rm{|}}{\rm{Mv}}{{\rm{y}}_{{\rm{x}},y}}{\rm{| > 8}})?2:1 \\ & \qquad \qquad M{\rm{Mv}}{{\rm{x}}_{x,y}} = od ({\rm{Mv}}{{\rm{x}}_{x,y}},4)/4 \\ & \qquad\qquad M{\rm{Mv}}{{\rm{y}}_{x,y}} = od ({\rm{Mv}}{{\rm{y}}_{x,y}},4)/4 \\ & \quad \quad {\rm{d}}x_{x,y} = {P_{2x,2y + 1}} + {P_{2x + 1,2y + 1}} - {P_{2x,2y}} + {P_{2x + 1,2y}} \\ & \quad \quad {\rm{d}}y_{x,y} = {P_{2x + 1,2y}} + {P_{2x + 1,2y + 1}} - {P_{2x,2y}} + {P_{2x,2y + 1}} \\ & \varPsi = \frac{{\displaystyle\sum\limits_{x = 0}^7 {\displaystyle\sum\limits_{y = 0}^7 {({\rm{d}}x_{x,y}^2M{\rm{Mv}}{{\rm{x}}_{{{x}},y}}^2{{\bf \varTheta} _{{{{X}}}}} + {\rm{d}}y_{x,y}^2M{\rm{Mv}}{{\rm{y}}_{x,y}}^2{{\bf \varTheta} _{{{{Y}}}}})} } }}{{64}} \\ & {\rm{QP}} = \\ &\min \left(3\left\{ {\begin{aligned} & {{0}\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\varPsi < ({\rm{Q}}{{\rm{S}}^2}/12)} \\ & {0.5{{\rm{{\log }}}_2}\left(\frac{{2 \varPsi {\rm{{\log }}_{\rm{2}}}\left(\dfrac{\varPsi }{{{\rm{QS}^2}/12}}\right)}}{{10\;000}}\right)\;\varPsi \geqslant ({\rm{QS}^2}/12)} \end{aligned}} \right. \right) \\ \end{aligned} $$ (4) -
表 1 QUO码表
QR k=0 k=1 k=2 k=3 0 0 00 000 0000 ±1 10 01 001 0001 ±2 110 100 010 0010 ±3 1110 101 011 0100 ±4 111100 1100 1000 0101 ±5 111101 1101 1001 0110 ${\vdots} $ ${\vdots} $ ${\vdots} $ ${\vdots} $ ${\vdots} $ 哥伦布编码通过式(5)拆分QR为k值、商QUO和余数REM。如表1所示,对QUO进行查表编码,对REM直接传输,根据纹理相关性原则,k值为已编码的临近像素所采用的k值。
$${\rm{QR}} = {\rm{QUO}}k + {\rm{REM}}$$ (5) -
通过分析发现CAQO有如下待改进之处:
1)方向性预测仅采用最大梯度作为最优预测方向,会导致预测的稳定性较差,并且预测方向的数量限制不能使PR进一步减少。
2)离散平稳高斯率失真模型中,不仅没有考虑到纹理方向对功率谱密度的影响,而且也没有考虑传递效应对QS的影响,以至于计算得到的QP不是最优解。
3)在QUO码表中,QR没有考虑符号位的相关性,只是简单地进行单独编码;不对商进行限幅处理,一定概率会产生最终编码bit数远超过原始数据bit数的膨胀现象;对于图像纹理较复杂的区域,利用图像方向相关性的原则去计算k值,该方法的适应性较差;对于图像纹理较平坦区域,压缩率提升空间较小。
为解决上述问题,本文提出了一种纹理感知多模式编码的帧存有损压缩算法(a texture perception multimode coding for frame memory lossy compression, TPMC)。实验结果显示,相对于CAQO算法,本算法不但有着更高的压缩率,同时在峰值信噪比和平均编码时间两方面和CAQO算法保持性能持平。
-
由于CAQO算法存在一定的缺陷,因此为了在不影响图像性能质量的前提下进一步提高压缩效率,本文提出TPMC算法。它基于 block 16×16(长和宽各有16个像素)作为预测和量化的基本单元,以block 16×1(长有16个像素,宽只有一个像素)作为熵编码的基本单元,首先对当前像素进行纹理感知,并采用权重插值的方法计算PR,然后根据优化的离散平稳高斯率失真公式得到新的QP和QR,最后对QR进行多模式自适应编码。
-
为了充分利用当前像素Pij周围的4个重建像素,获得更小的PR,采用如下步骤:
1)根据不同位置的权重,采用式(6)获取4个纹理梯度值,并计算其中梯度最小值Dminst和次小值Dminer,分别对应纹理主方向和辅方向,4个纹理方向如图2 所示。
2)如式(7)所示,若纹理主方向和辅方向差异为90°,说明该区域纹理复杂,则采用均值策略计算参考像素值;否则采用权重插值策略计算参考像素值。式(7)中Pminst和Pminer分别为与当前紧相邻的4个像素中,纹理主方向和辅方向对应的像素值。
$$\begin{split} & {D_h} = (|{P_{i + 1,j - 2}} - {P_{i + 1,j - 1}}| + 2 |{P_{i,j - 2}} - {P_{i,j - 1}}|+ \\ & |{P_{i - 1,j}} - {P_{i - 1,j - 1}}| + |{P_{i - 1,j - 2}} - {P_{i - 1,j - 1}}|)/5 \\ & {D_v} = (|{P_{i - 1,j - 1}} - {P_{i,j - 1}}| + |{P_{i,j - 1}} - {P_{i + 1,j - 1}}| +\\ &\qquad\;\; 2 |{P_{i - 2,j}} - {P_{i - 1,j - 1}}|)/4 \\ & {D_/} = (|{P_{i - 1,j}} - {P_{i,j - 1}}| + |{P_{i,j - 1}} - {P_{i + 1,j - 2}}|+\\ & \qquad\;\; 2 |{P_{i + 1,j - 1}} - {P_{i + 2,j - 2}}|)/4 \\ & \;\;\; {D_\backslash } = (|{P_{i - 1,j}} - {P_{i - 2,j - 1}}| + |{P_{i - 1,j - 2}}- \\ &\;\;\; {P_{i,j - 1}}| + 2 |{P_{i - 1,j - 1}} - {P_{i - 2,j - 2}}|)/4 \end{split} $$ (6) $$R = \left\{ {\begin{aligned} & {({P_{\min{{\rm\!{st}}}}} {D_{\min{\rm\!{er}}}} + {P_{\min{\rm\!{er}}}} {D_{\min{\rm\!{st}}}})/({D_{\min{\rm\!{er}}}} + {D_{\min{\rm\!{st}}}})} \\ &{{\rm{if}}|{P_{\min{\rm\!{st}}}} - {P_{\min{\rm\!{er}}}}| =\!\! = 90} \\ & {({P_{i - 1,j}} + {P_{i - 1,j - 1}} + {P_{i,j - 1}} + {P_{i + 1,j - 1}})/4}\quad {\rm{else}} \end{aligned}} \right.$$ (7) -
首先,为了更大限度地满足自然图像的纹理特征,通过式(8),针对梯度值和运动矢量,从仅有的水平和垂直方向的拟合扩展到4个方向的拟合,并选取最小梯度值方向为最终梯度方向:
$$\begin{split} &\;\; \varPsi = \frac{{\displaystyle\sum\limits_{{{x}} = 0}^7 {\displaystyle\sum\limits_{{{y}} = 0}^7 {({\rm{d}}_{x,y}^2({\rm{Mvy}}_{x,y}^2 + {\rm{Mvx}}_{x,y}^2)\bf \varTheta )} } }}{{64}}\\ &\quad {\varTheta {\rm{ = }}\left( {{\rm{|}}\sqrt {{\rm{Mvy}}_{x,y}^2 + {\rm{Mvx}}_{x,y}^2} {\rm{| > 8}}} \right)}?2:1\\ & d00_{x,y} = {P_{2x,2y + 1}} + {P_{2x + 1,2y + 1}} - {P_{2x,2y}} + {P_{2x + 1,2y}}\\ & d90_{x,y} = {P_{2x + 1,2y}} + {P_{2x + 1,2y + 1}} - {P_{2x,2y}} + {P_{2x,2y + 1}} \end{split}$$ $$\begin{split} &\qquad\;\; d45_{x,y} = {P_{2x + 1,2y}} - {P_{2x,2y + 1}}\\ &\qquad\;\; d135_{x,y} = {P_{2x,2y}} - {P_{2x + 1,2y + 1}}\\ &\;\; d_{i,j} = {\rm{MIN}}(d00_{i,j},d90_{i,j},d45_{i,j},d135_{i,j}) \end{split}$$ (8) 其次,在根据当前压缩单元计算当前帧重建图像的同时,由于传递效应的存在,重建图像作为参考帧也会影响后续其他帧的编码,即误差在帧间的传递和扩散,因此在计算高斯平稳率失真模型中的QS时,需要考虑到运动方向(motion vector, MV)的相关性和多帧时帧间相同位置QS的相关性,如式(9)所示。
$${\rm{QS}} = \frac{1}{\rm{{{refnum}}}}\sum\limits_{i = 0}^{\rm{{refnum}}} {{\rm{QS}}({\rm{C}}{{\rm{U}}_{{\rm{cur}}}\_{\rm{mvn}}})} $$ (9) 式中,CUcur_mvn表示当前位置对应的编码单元经过MV的n次迭代运算后所指向的编码单元;refnum表示解码过程中参考帧的个数。
最终,将更新的QS和Ψ取代式(4)中的QS和Ψ,重新计算得到当前压缩单元的QP,并采用式(10)以消除符号位,从而得到QR:
$$\begin{split} &\qquad\;\; {\rm{temp}} = {\rm{PR}} > > {\rm{QP}} \\ & {\rm{QR}} = \left\{ {\begin{aligned} & {2 {\rm{temp}}} \;\;\;\; \;\;\;\; \;\;{\rm{{temp}}}{\geqslant 0}\\ & {1 - 2 {\rm{temp}}} \;\;\;\;{\text{其他}} \end{aligned}} \right. \end{split} $$ (10) -
对于纹理复杂区域,QR差异较大导致k值相关性较差,且由于没有对k值限幅,因此哥伦布一元编码会导致压缩率较差甚至过膨胀现象;对于纹理平坦区域,QR较小且大多为0,因此哥伦布一元编码不能进一步减少编码比特数。为了克服以上问题,多模式编码被提出。多模式编码针对不同纹理区域,采用不同的编码模式,流程图如图3所示。
对于每个block 16×1的熵编码单元,若当前的量化残差全为0,则采用游程模式进行编码,以最大程度的降低编码bit数,否则采用自适应k的哥伦布编码和直传编码两种模式同时进行预编码,然后根据预编码bit数的多少选择bit数较少的编码模式作为最终的编码模式。同时消耗2 bit把最终选择的编码模式写入到码流。对于3种编码模式,具体说明如下:
1)游程编码采用1个符号位表示16×1个QR全部为0的情况:解码端若解析到编码模式为游程编码,则恢复该编码单元的所有QR全部为0。
2)直传编码,首先计算该编码单元所有QR的最大比特位宽,然后把最大位宽写入码流,最后按该位宽把每个QR写入码流。解码端首先解析最大比特位宽,然后按照该位宽解析每个QR。
3)自适应k的哥伦布编码,根据式(11),k值由上一个QR计算得到:
$$k = {\log _2}\left( {{\rm{QR}}{}_{{\rm{last}}} + 1} \right)$$ (11) 由于k值范围扩大,降低了最大商出现的可能性,因此多维码表可以变为1维码表,且为了限制膨胀,码表中应规定商的逃逸值,1维的商码表如表2所示。
表 2 哥伦布商码表
商 余数 商 码字 码长 码字 码长 0 1 1 余数 k 1 10 3 余数 k 2 100 3 余数 k 3 1000 4 余数 k 4 10000 5 余数 k 5 1000000 7 余数 k 6 1100000 7 余数 k 7 10000000 8 余数 k >7 11000000 8 PD PD的比特位宽 -
相对CAQO算法,本文算法分别从压缩率和运算量两方面进行分析。
在压缩率方面,本算法首先在预测步骤中采用了纹理感知的特性,并利用周围重建像素和权重插值,提高了预测精度和稳定性;同时在量化步骤中优化了率失真模型,得到了更优的QP并消除了符号位;最后在编码步骤中区分纹区域理特性以采用不同的编码模式,最终提高了压缩率。
在计算量方面,CAQO在预测过程中有23次加减等基本运算和2次乘除运算,TPMC有34次加减基本运算和3次乘除法运算;CAQO和TPMC在量化过程中的运算量差不多;相对CAQO采用的哥伦布编码,TPMC采用的游程编码和直传编码在编码过程中省去了更多计算步骤,计算量有明显下降。
-
为了比较本文算法与CAQO的算法性能,将算法嵌入HEVC后,分别从压缩率(compression ratio, CR)、PSNR和相对编码时间(relative encoding time, RET)3个维度进行测试。整个实验可分为两类,第一类实验将两种算法单独步骤的性能对比,第二类实验将两种算法的整体性能对比。测试平台为HM16.8,运行环境为Inter I5-6400 CPU@2.7GHz、8G内存、Win7 64位系统。CR和RET计算公式如式(12)所示。
$$\begin{split} & {\rm{CR}} = \left( {1 - {\rm{Size}}{}_{{\rm{bs}}}/{\rm{Size}}{}_{{\rm{ori}}}} \right) \times100\% \\ & {\rm{RET}} = \left( {{\rm{Time}}{}_{{\rm{TPMC}}}/{\rm{Time}}{}_{{\rm{CAQO}}}} \right) \times100\% \\ & \Delta {\rm{PSNR}} = {\rm{PSNR}}{}_{a\lg }/{\rm{PSNR}}{}_{{\rm{ori}}} \\ \end{split} $$ (12) 式中,Sizeori和Sizebs分别为压缩前后数据量大小;TimeTPMC和TimeCAQO分别为本算法和CAQO算法的编码时间;PSNRalg和PSNRori分别为算法嵌入HEVC和不嵌入HEVC后的峰值信噪比。CR越大,说明本文算法压缩率越好;RET越小,说明本文算法的编码时间相对越少;△PSNR越小,说明对应算法嵌入HEVC后,HEVC编码的图像质量下降越少。
在测试序列的选择上,本实验根据图像纹理的复杂度情况,选择了3类共9个序列进行对比分析,以确保涵盖不同的特征图像,即3个图像纹理较复杂序列、3个图像纹理中等序列和3个图像纹理较简单序列。
第一类实验结果如表3所示。从横向对比可以看出,本文的预测模块由于采用了方向拟合预测,较CAQO的7种方向预测有更多的预测方向,所以在CR方面,对于racehorses序列有3.33%的收益,但是RET增长较为明显;本文的率失真模块在CR方面,较CAQO更有平均6.47%的增长,在RET方面和CAAQ算法持平;本文的编码模块,由于采用了游程编码,RET有大幅度的下降。纵向对比可以看出,预测模块和编码模块对CR的提高帮助最大。
第二类实验结果如表4所示。在CR方面,相对CAQO,本文算法的鲁棒性更强,插值预测的精度更高,因此得到的预测残差较小;其次,由于本文算法优化了高斯平稳噪声率失真模型,得到更准确的量化残差;最后针对不同的图像纹理区域特量化残差的特性,在不同的编码模式之间自适应选择,从而提高压缩率。由表4可以看出,本算法对于简单纹理序列Tennis,由于游程编码的使用,压缩率提高最大,为18.24%;对于复杂纹理序列,由于直传编码的采用,压缩率也有很大的提高;因此本文算法较CAQO,平均CR有14.8%的提高。
表 3 本文算法与CAQO算法各模块的压缩性能对比
序列 CR/% △PSNR/dB RET/% CAQO 本文 CAQO 本文 预测 Tennis 44.15 56.12 −0.01 −0.01 123.31 crowdrun 47.89 48.14 −0.03 −0.03 125.35 racehorses 47.12 50.45 −0.02 −0.02 131.89 平均 46.39 51.57 −0.02 −0.02 126.85 率失真 Tennis 23.14 30.21 0.00 0.00 101.11 crowdrun 27.87 33.12 0.00 0.00 100.98 racehorses 27.54 34.63 0.01 0.02 103.15 平均 26.18 32.65 0.00 0.01 101.75 编码 Tennis 42.23 50.61 −0.02 −0.02 51.14 crowdrun 43.19 51.72 −0.06 −0.05 53.23 racehorses 45.67 55.43 −0.04 −0.05 54.38 平均 43.70 52.59 −0.04 −0.05 52.92 表 4 本文算法与CAQO算法压缩的性能对比
序列 CR/% △PSNR/dB RET/% CAQO 本文 CAQO 本文 Tennis 78.21 96.45 −0.02 −0.01 92.11 bluesky 80.26 95.21 −0.05 −0.07 93.42 Johnny 81.39 94.12 −0.05 −0.01 91.65 crowdrun 71.21 83.54 −0.06 −0.04 98.12 traffic 70.95 88.45 −0.07 −0.08 102.2 stockholm 70.12 85.12 −0.08 −0.09 99.16 racehorses 64.36 81.13 −0.06 −0.07 109.57 riverbed 60.21 76.42 −0.09 −0.08 111.56 mobcal 59.76 69.21 −0.08 −0.07 110.21 平均 70.72 85.52 −0.06 −0.06 100.89 在算法复杂度方面,对于量化步骤,本文算法与CAQO的计算复杂度基本一致;对于预测步骤,本文算法是CAQO的计算复量的1.5倍;对于编码步骤,本文算法较CAQO,游程编码和直传编码节约了大量的编码时间。由表4可以看出,简单纹理序列本文算法RET较小,反之较大。综上分析,两种算法的平均计算复杂度基本相同。
A Research on Frame Memory Lossy Compression Algorithm Using Texture Perception Multimode Coding
-
摘要: 为了提高帧存储的压缩性能,该文提出了一种纹理感知多模式编码的帧存有损压缩算法。该算法首先感知区域纹理的方向性,为当前像素计算得到最优方向的参考像素,并方向性预测得到预测残差;然后根据运动方向的延续性和帧间同位置像素的量化步长的相关性,对率失真模型进行改进,以得到量化参数;最后针对不同纹理区域的预测残差特点,在游程编码、自适应k的哥伦布编码和直传编码3种编码模式中,自适应选取最优的编码模式进行编码。实验结果显示,与内容感知自适应量化的帧存压缩算法相比,一方面,该算法在PSNR和编码时间几乎不变的情况下,平均压缩率提高了14.8%;另一方面,该算法的性能与图像复杂程度强相关,即图像纹理越简单,该算法的编码时间越短,提高的压缩率越大。Abstract: A texture perception multimode coding for frame memory lossy compression is proposed to improve frame memory compression performance. First, the optimal directional reference pixel is calculated by using the texture perception and prediction residual is obtained by using the directional prediction. Then, rate-distortion is improved to obtain quantized parameter based on the continuity of motion direction and the correlation between quantization steps of same-position pixels between frames. Finally, according to the prediction residual characteristics of different texture regions, among the three encoding modes of run length coding, adaptive k Columbus coding and direct coding, adaptive selection of the optimal encoding mode is carried out. The simulation results show that, compared with the frame memory compression algorithm based on content-aware adaptive quantization, the average compression rate of this algorithm is improved by 14.8% when PSNR and encoding time are almost unchanged. The performance of the algorithm in this paper is strongly related to the complexity of the image, that is, the simpler the image texture is, the shorter the encoding time of the algorithm is, and the higher the compression rate is.
-
Key words:
- compression ratio /
- coding time /
- frame memory /
- lossy compression /
- prediction
-
表 1 QUO码表
QR k=0 k=1 k=2 k=3 0 0 00 000 0000 ±1 10 01 001 0001 ±2 110 100 010 0010 ±3 1110 101 011 0100 ±4 111100 1100 1000 0101 ±5 111101 1101 1001 0110 ${\vdots} $ ${\vdots} $ ${\vdots} $ ${\vdots} $ ${\vdots} $ 表 2 哥伦布商码表
商 余数 商 码字 码长 码字 码长 0 1 1 余数 k 1 10 3 余数 k 2 100 3 余数 k 3 1000 4 余数 k 4 10000 5 余数 k 5 1000000 7 余数 k 6 1100000 7 余数 k 7 10000000 8 余数 k >7 11000000 8 PD PD的比特位宽 表 3 本文算法与CAQO算法各模块的压缩性能对比
序列 CR/% △PSNR/dB RET/% CAQO 本文 CAQO 本文 预测 Tennis 44.15 56.12 −0.01 −0.01 123.31 crowdrun 47.89 48.14 −0.03 −0.03 125.35 racehorses 47.12 50.45 −0.02 −0.02 131.89 平均 46.39 51.57 −0.02 −0.02 126.85 率失真 Tennis 23.14 30.21 0.00 0.00 101.11 crowdrun 27.87 33.12 0.00 0.00 100.98 racehorses 27.54 34.63 0.01 0.02 103.15 平均 26.18 32.65 0.00 0.01 101.75 编码 Tennis 42.23 50.61 −0.02 −0.02 51.14 crowdrun 43.19 51.72 −0.06 −0.05 53.23 racehorses 45.67 55.43 −0.04 −0.05 54.38 平均 43.70 52.59 −0.04 −0.05 52.92 表 4 本文算法与CAQO算法压缩的性能对比
序列 CR/% △PSNR/dB RET/% CAQO 本文 CAQO 本文 Tennis 78.21 96.45 −0.02 −0.01 92.11 bluesky 80.26 95.21 −0.05 −0.07 93.42 Johnny 81.39 94.12 −0.05 −0.01 91.65 crowdrun 71.21 83.54 −0.06 −0.04 98.12 traffic 70.95 88.45 −0.07 −0.08 102.2 stockholm 70.12 85.12 −0.08 −0.09 99.16 racehorses 64.36 81.13 −0.06 −0.07 109.57 riverbed 60.21 76.42 −0.09 −0.08 111.56 mobcal 59.76 69.21 −0.08 −0.07 110.21 平均 70.72 85.52 −0.06 −0.06 100.89 -
[1] ITU-T H.265: High efficiency video coding[S]//ITU-T Study Group 16. Geneva: ITUBookshop, 2018. [2] FAN Y, SHANG Q, ZENG X. In-Block prediction-based mixed lossy and losssless reference frame recompression for next generation video encoding[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2015, 25(1): 112-124. [3] SILVERIRA D, POVALA G, AMARAL L, et al. A low complexity and lossless reference frame encoder algorithm for video coding[C]//The 2014 IEEE International Conference on Acoustic Speech and Signal Processing. Florence: IEEE, 2014: 7408-7412. [4] GUPTR A D, AMRUTUR B, MEHENDALE M M, et al. Memory bandwidth and power reduction using lossy reference frame compression in video encoding[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2015, 21(20): 225-230. [5] MA Y, KANG L. Adaptive granularity selection in reference picture memory compression[C]//The 2015 International Conference on Mechatronics, Electronic, Industrial and Control Engineering. Shenyang: Atlantis, 2015: 1158-1161. [6] LEE Y. A new frame recompression algorithm integrated with h.264 video compression[C]//International Symposium on Circuits and Systems. Los Angeles: IEEE, 2007: 1621-1624. [7] SAMPAIO F, ZATT B, SHAFIQUE M, et al. Content-adaptive reference frame compression based on intra-frame prediction for multiview video coding[C]//Proceedings of 2013 IEEE International Conference on Image Processing. Melbourne: IEEE, 2013: 1831-1835. [8] WILLEME, ALEXANDRE, DESCAMPE, et al. JPEG XS-based frame buffer compression inside HEVC for power-aware video compression[C]//The 25th IEEE International Conference on Image Processing. California: IEEE, 2018: 3598-3602. [9] ZHOU X, LIAN X C, ZHOU W, et al. A low power lossy frame memory recompression algorithm[C]// The 2016 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference. Jeju: IEEE, 2016: 1-4. [10] RAHAYU F N, REITER U, YOU J Y, et al. Subjective visual quality assessment in the presence of audio for digital cinema[C]//The 2011 Third International Workshop on Quality of Multimedia Experience. Mechelen: IEEE, 2011: 113-118. [11] ARORA I, GARG N K. Bi-featured image quality assessment with the hierarchical image quality enhancement algorithm[C]//The 2016 International Conference on Inventive Computation Technologies. Coimbatore: IEEE, 2016, 2: 1-6. [12] LIANG X C, LIU Z Y, ZHOU W, et al. Parallel content-aware adaptive quantization-oriented lossy frame memory recompression for HEVC[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2018, 28(4): 958-971. [13] MAHMOODIN Z, MANSOR W, LEE K Y, et al. An analysis of EEG signal power spectrum density generated during writing in children with dyslexia[C]//The 2015 IEEE 11th International Colloquium on Signal Processing & Its Applications. Kuala Lumpur: IEEE, 2015: 156-160. [14] LIU G B, YANG H, ZHENG G, et al. Characterization of nanoparticle based on the power spectrum density of dynamic light scattering[C]//2011 Third International Conference on Measuring Technology and Mechatronics Automation. Shanghai: IEEE, 2011(1): 704-707. [15] WIEGAND T, GIROD B. Lagrange multiplier selection in hybrid video coder control[C]//The 2001 International Conference on Image Processing. Thessaloniki: IEEE, 2001(3): 542-545. [16] XU Y L, GUO X H, WEI D Y. Hardware-friendly method for rate-distortion optimization of HEVC intra coding[C]//2017 IEEE Pacific Rim Conference on Communications, Computers and Signal Processing. Victoria: IEEE, 2017: 1-4.