留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

纹理感知多模式编码的帧存有损压缩算法研究

罗瑜

罗瑜. 纹理感知多模式编码的帧存有损压缩算法研究[J]. 电子科技大学学报, 2021, 50(1): 8-13. doi: 10.12178/1001-0548.2019115
引用本文: 罗瑜. 纹理感知多模式编码的帧存有损压缩算法研究[J]. 电子科技大学学报, 2021, 50(1): 8-13. doi: 10.12178/1001-0548.2019115
LUO Yu. A Research on Frame Memory Lossy Compression Algorithm Using Texture Perception Multimode Coding[J]. Journal of University of Electronic Science and Technology of China, 2021, 50(1): 8-13. doi: 10.12178/1001-0548.2019115
Citation: LUO Yu. A Research on Frame Memory Lossy Compression Algorithm Using Texture Perception Multimode Coding[J]. Journal of University of Electronic Science and Technology of China, 2021, 50(1): 8-13. doi: 10.12178/1001-0548.2019115

纹理感知多模式编码的帧存有损压缩算法研究

doi: 10.12178/1001-0548.2019115
基金项目: 国家863计划 (2015M16903)
详细信息
    作者简介:

    罗瑜(1984-),女,博士,副教授,主要从事图形图像方面的研究. E-mail:luoyu2010@163.com

  • 中图分类号: TN919.81

A Research on Frame Memory Lossy Compression Algorithm Using Texture Perception Multimode Coding

  • 摘要: 为了提高帧存储的压缩性能,该文提出了一种纹理感知多模式编码的帧存有损压缩算法。该算法首先感知区域纹理的方向性,为当前像素计算得到最优方向的参考像素,并方向性预测得到预测残差;然后根据运动方向的延续性和帧间同位置像素的量化步长的相关性,对率失真模型进行改进,以得到量化参数;最后针对不同纹理区域的预测残差特点,在游程编码、自适应k的哥伦布编码和直传编码3种编码模式中,自适应选取最优的编码模式进行编码。实验结果显示,与内容感知自适应量化的帧存压缩算法相比,一方面,该算法在PSNR和编码时间几乎不变的情况下,平均压缩率提高了14.8%;另一方面,该算法的性能与图像复杂程度强相关,即图像纹理越简单,该算法的编码时间越短,提高的压缩率越大。
  • 图  1  方向性预测坐标示意图

    图  2  预测示意图

    图  3  多模式编码图

    表  1  QUO码表

    QRk=0k=1k=2k=3
    00000000000
    ±110010010001
    ±21101000100010
    ±311101010110100
    ±4111100110010000101
    ±5111101110110010110
    ${\vdots} $${\vdots} $${\vdots} $${\vdots} $${\vdots} $
    下载: 导出CSV

    表  2  哥伦布商码表

    余数
    码字码长码字码长
    011余数k
    1103余数k
    21003余数k
    310004余数k
    4100005余数k
    510000007余数k
    611000007余数k
    7100000008余数k
    >7110000008PDPD的比特位宽
    下载: 导出CSV

    表  3  本文算法与CAQO算法各模块的压缩性能对比

    序列CR/%△PSNR/dBRET/%
    CAQO本文CAQO本文
    预测Tennis44.1556.12−0.01−0.01123.31
    crowdrun47.8948.14−0.03−0.03125.35
    racehorses47.1250.45−0.02−0.02131.89
    平均46.3951.57−0.02−0.02126.85
    率失真Tennis23.1430.210.000.00101.11
    crowdrun27.8733.120.000.00100.98
    racehorses27.5434.630.010.02103.15
    平均26.1832.650.000.01101.75
    编码Tennis42.2350.61−0.02−0.0251.14
    crowdrun43.1951.72−0.06−0.0553.23
    racehorses45.6755.43−0.04−0.0554.38
    平均43.7052.59−0.04−0.0552.92
    下载: 导出CSV

    表  4  本文算法与CAQO算法压缩的性能对比

    序列CR/%△PSNR/dBRET/%
    CAQO本文CAQO本文
    Tennis78.2196.45−0.02−0.0192.11
    bluesky80.2695.21−0.05−0.0793.42
    Johnny81.3994.12−0.05−0.0191.65
    crowdrun71.2183.54−0.06−0.0498.12
    traffic70.9588.45−0.07−0.08102.2
    stockholm70.1285.12−0.08−0.0999.16
    racehorses64.3681.13−0.06−0.07109.57
    riverbed60.2176.42−0.09−0.08111.56
    mobcal59.7669.21−0.08−0.07110.21
    平均70.7285.52−0.06−0.06100.89
    下载: 导出CSV
  • [1] ITU-T H.265: High efficiency video coding[S]//ITU-T Study Group 16. Geneva: ITUBookshop, 2018.
    [2] FAN Y, SHANG Q, ZENG X. In-Block prediction-based mixed lossy and losssless reference frame recompression for next generation video encoding[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2015, 25(1): 112-124.
    [3] SILVERIRA D, POVALA G, AMARAL L, et al. A low complexity and lossless reference frame encoder algorithm for video coding[C]//The 2014 IEEE International Conference on Acoustic Speech and Signal Processing. Florence: IEEE, 2014: 7408-7412.
    [4] GUPTR A D, AMRUTUR B, MEHENDALE M M, et al. Memory bandwidth and power reduction using lossy reference frame compression in video encoding[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2015, 21(20): 225-230.
    [5] MA Y, KANG L. Adaptive granularity selection in reference picture memory compression[C]//The 2015 International Conference on Mechatronics, Electronic, Industrial and Control Engineering. Shenyang: Atlantis, 2015: 1158-1161.
    [6] LEE Y. A new frame recompression algorithm integrated with h.264 video compression[C]//International Symposium on Circuits and Systems. Los Angeles: IEEE, 2007: 1621-1624.
    [7] SAMPAIO F, ZATT B, SHAFIQUE M, et al. Content-adaptive reference frame compression based on intra-frame prediction for multiview video coding[C]//Proceedings of 2013 IEEE International Conference on Image Processing. Melbourne: IEEE, 2013: 1831-1835.
    [8] WILLEME, ALEXANDRE, DESCAMPE, et al. JPEG XS-based frame buffer compression inside HEVC for power-aware video compression[C]//The 25th IEEE International Conference on Image Processing. California: IEEE, 2018: 3598-3602.
    [9] ZHOU X, LIAN X C, ZHOU W, et al. A low power lossy frame memory recompression algorithm[C]// The 2016 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference. Jeju: IEEE, 2016: 1-4.
    [10] RAHAYU F N, REITER U, YOU J Y, et al. Subjective visual quality assessment in the presence of audio for digital cinema[C]//The 2011 Third International Workshop on Quality of Multimedia Experience. Mechelen: IEEE, 2011: 113-118.
    [11] ARORA I, GARG N K. Bi-featured image quality assessment with the hierarchical image quality enhancement algorithm[C]//The 2016 International Conference on Inventive Computation Technologies. Coimbatore: IEEE, 2016, 2: 1-6.
    [12] LIANG X C, LIU Z Y, ZHOU W, et al. Parallel content-aware adaptive quantization-oriented lossy frame memory recompression for HEVC[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2018, 28(4): 958-971.
    [13] MAHMOODIN Z, MANSOR W, LEE K Y, et al. An analysis of EEG signal power spectrum density generated during writing in children with dyslexia[C]//The 2015 IEEE 11th International Colloquium on Signal Processing & Its Applications. Kuala Lumpur: IEEE, 2015: 156-160.
    [14] LIU G B, YANG H, ZHENG G, et al. Characterization of nanoparticle based on the power spectrum density of dynamic light scattering[C]//2011 Third International Conference on Measuring Technology and Mechatronics Automation. Shanghai: IEEE, 2011(1): 704-707.
    [15] WIEGAND T, GIROD B. Lagrange multiplier selection in hybrid video coder control[C]//The 2001 International Conference on Image Processing. Thessaloniki: IEEE, 2001(3): 542-545.
    [16] XU Y L, GUO X H, WEI D Y. Hardware-friendly method for rate-distortion optimization of HEVC intra coding[C]//2017 IEEE Pacific Rim Conference on Communications, Computers and Signal Processing. Victoria: IEEE, 2017: 1-4.
  • [1] 黄峻嘉, 张琪, 赵娜, 李蓉, 苏宇涵, 周涛.  基于近视筛查数据的近视影响因素分析和近视预测 . 电子科技大学学报, 2021, 50(2): 256-260. doi: 10.12178/1001-0548.2020426
    [2] 喻孜, 张贵清, 刘庆珍, 吕忠全.  基于时变参数-SIR模型的COVID-19疫情评估和预测 . 电子科技大学学报, 2020, 49(3): 357-361. doi: 10.12178/1001-0548.2020027
    [3] 杨文忠, 张志豪, 吾守尔·斯拉木, 温杰彬, 富雅玲, 王丽花, 王婷.  基于时间序列关系的GBRT交通事故预测模型 . 电子科技大学学报, 2020, 49(4): 615-621. doi: 10.12178/1001-0548.2019151
    [4] 李英, 崔艳鹏, 高新波.  一种基于算术编码的文本数据压缩算法 . 电子科技大学学报, 2016, 45(6): 929-933. doi: 10.3969/j.issn.1001-0548.2016.06.009
    [5] 王亦雷, 嵇智源, 夏勇, 秦臻, 程红蓉.  移动用户人口统计信息预测 . 电子科技大学学报, 2015, 44(6): 917-920. doi: 10.3969/j.issn.1001-0548.2015.06.021
    [6] 喻庆东, 周莉, 朱玥, 胡哲琨, 陈杰.  可编程的帧内预测器结构设计与实现 . 电子科技大学学报, 2012, 41(4): 605-610. doi: 10.3969/j.issn.1001-0548.2012.04.025
    [7] 李星毅, 李奎, 施化吉, 周双全.  背景值优化的GM(1,1)预测模型及应用 . 电子科技大学学报, 2011, 40(6): 911-914. doi: 10.3969/j.issn.1001-0548.2011.06.020
    [8] 滕云龙, 师奕兵, 郑植.  接收机钟差灰色马尔可夫预测模型研究 . 电子科技大学学报, 2011, 40(2): 242-245. doi: 10.3969/j.issn.1001-0548.2011.02.017
    [9] 陈其松, 陈孝威, 张欣, 吴茂念.  优化SVM在锅炉负荷预测中的应用 . 电子科技大学学报, 2010, 39(2): 316-320. doi: 10.3969/j.issn.1001-0548.2010.02.035
    [10] 辛勤, 粘永健, 万建伟, 何密.  基于FastICA的高光谱图像压缩技术 . 电子科技大学学报, 2010, 39(5): 711-715,730. doi: 10.3969/j.issn.1001-0548.2010.05.014
    [11] 窦丽华, 董领逊, 张娟, 冯贺平.  含间隙系统的约束时间最优预测控制 . 电子科技大学学报, 2009, 38(6): 962-966. doi: 10.3969/j.issn.1001-0548.2009.06.014
    [12] 马涛, 陈杰.  消除重复计算的H.264帧内预测电路 . 电子科技大学学报, 2009, 38(1): 67-70.
    [13] 周金柱, 段宝岩, 黄进, 李华平.  裂缝天线缝制造精度对电性能影响的预测 . 电子科技大学学报, 2009, 38(6): 1047-1051. doi: 10.3969/j.issn.1001-0548.2009.06.033
    [14] 黄建国, 罗航, 王厚军, 龙兵.  运用GA-BP神经网络研究时间序列的预测 . 电子科技大学学报, 2009, 38(5): 687-692. doi: 10.3969/j.issn.1001-0548.2009.05.028
    [15] 周巧临, 傅彦.  科学数据时间序列的预测方法 . 电子科技大学学报, 2007, 36(6): 1260-1263.
    [16] 葛中全, 杨剑.  中国高等院校专利申请实证研究 . 电子科技大学学报, 2006, 35(2): 285-288.
    [17] 程瑜蓉, 郭双冰.  基于混沌时间序列分析的股票价格预测 . 电子科技大学学报, 2003, 32(4): 469-472.
    [18] 郑勇, 周正华, 朱维乐.  一种快速零树编码的小波图像压缩算法 . 电子科技大学学报, 2001, 30(4): 331-334.
    [19] 傅寅飞, 刘亚康, 朱学勇.  集群通信中的代数CELP语音压缩编码 . 电子科技大学学报, 2000, 29(6): 573-577.
    [20] 胡晓, 陈拥军, 曾敏, 尧德中.  一种选取相空间重构最优延迟时间的算法 . 电子科技大学学报, 2000, 29(3): 282-285.
  • 加载中
图(3) / 表(4)
计量
  • 文章访问数:  5500
  • HTML全文浏览量:  1444
  • PDF下载量:  50
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-05-06
  • 修回日期:  2020-05-26
  • 网络出版日期:  2021-01-12
  • 刊出日期:  2021-01-31

纹理感知多模式编码的帧存有损压缩算法研究

doi: 10.12178/1001-0548.2019115
    基金项目:  国家863计划 (2015M16903)
    作者简介:

    罗瑜(1984-),女,博士,副教授,主要从事图形图像方面的研究. E-mail:luoyu2010@163.com

  • 中图分类号: TN919.81

摘要: 为了提高帧存储的压缩性能,该文提出了一种纹理感知多模式编码的帧存有损压缩算法。该算法首先感知区域纹理的方向性,为当前像素计算得到最优方向的参考像素,并方向性预测得到预测残差;然后根据运动方向的延续性和帧间同位置像素的量化步长的相关性,对率失真模型进行改进,以得到量化参数;最后针对不同纹理区域的预测残差特点,在游程编码、自适应k的哥伦布编码和直传编码3种编码模式中,自适应选取最优的编码模式进行编码。实验结果显示,与内容感知自适应量化的帧存压缩算法相比,一方面,该算法在PSNR和编码时间几乎不变的情况下,平均压缩率提高了14.8%;另一方面,该算法的性能与图像复杂程度强相关,即图像纹理越简单,该算法的编码时间越短,提高的压缩率越大。

English Abstract

罗瑜. 纹理感知多模式编码的帧存有损压缩算法研究[J]. 电子科技大学学报, 2021, 50(1): 8-13. doi: 10.12178/1001-0548.2019115
引用本文: 罗瑜. 纹理感知多模式编码的帧存有损压缩算法研究[J]. 电子科技大学学报, 2021, 50(1): 8-13. doi: 10.12178/1001-0548.2019115
LUO Yu. A Research on Frame Memory Lossy Compression Algorithm Using Texture Perception Multimode Coding[J]. Journal of University of Electronic Science and Technology of China, 2021, 50(1): 8-13. doi: 10.12178/1001-0548.2019115
Citation: LUO Yu. A Research on Frame Memory Lossy Compression Algorithm Using Texture Perception Multimode Coding[J]. Journal of University of Electronic Science and Technology of China, 2021, 50(1): 8-13. doi: 10.12178/1001-0548.2019115
  • 2019年,中国电信发布的《中国电信8k智能机顶盒白皮书20191121》明确提出对8K视频的要求。在市场需求逐渐明确的同时,视频编解码组织也推出了对8K分辨率的视频编解码标准[1],如AV1、VVC和AVS3等。同年,5G技术得到了大规模发展,为大量数据的实时无线传输提供了技术保障。随着“市场+技术”的驱动,视频图像的主流分辨率从4K发展到8K。

    图像分辨率的增大直接增加了DDR的读写需求,为了不降低图像主观性能质量的同时有效降低视频带宽,基于帧存技术[2-4]的轻量级视频压缩技术被提出,包括无损压缩[5-7]和有损压缩[8-9]。相对无损压缩技术,有损压缩增加了视频残差的量化环节,即在尽量降低图像峰值信噪(Peak signal to noise ratio, PSNR)的同时,尽可能地提升压缩效率[10-11]。在该研究中,内容感知自适应量化的帧存压缩技术[12](parallel content aware adaptive equantization oriented lossy frame memory recompression for HEVC, CAQO)被提出,其对有损压缩的研究最为优秀。CAQO首先在7个纹理方向中自适应的找到最优预测方向,并计算得到最优预测残差(prediction residual, PR),然后根据率失真模型计算量化参数(quantize parameter, QP),接着利用QP对PR进行编码前的量化操作,计算得到量化残差(quantize residual, QR),最后根据一元指数哥伦布编码算法完成QR的熵编码。

    • CAQO算法[13-14]包含方向性预测、离散平稳高斯率失真模型和哥伦布一元编码3个子算法模块,编码单元(coding unit, CU)为block 16×16,子模块算法细节分析如下。

    • 图1所示,根据以下步骤,通过当前预测像素附近已重建像素计算得到PR,其中Px,y为当前像素。

      图  1  方向性预测坐标示意图

      首先,计算区域A内的水平垂直梯度值DIRAH和DIRAV,区域B内的水平垂直梯度值DIRBH和DIRBV,计算如式(1)所示。

      接着,将DIRAV、DIRAH、DIRBV、DIRBH代入式(2)得到DVMAXDHMAX,并根据DVMAXDHMAX之比得到预测方向θ

      最后,根据θ是否为预测方向的主方向,选取或计算得到参考像素,即若θ为主方向,则直接选取对应方向的临近像素作为参考像素;若θ为辅方向,则计算该方向临近像素值之和的均值作为参考像素。

      $${\left\{ \begin{aligned} & {\rm{DI}}{{\rm{R}}_{\rm{BH}}} = {\rm{Pi{x}}}_{{x} - 2,{y}} + {\rm{Pi{x}}}_{x - 1,y} - {\rm{Pi{x}}}_{x - 2,{{y}} - 1} - {\rm{Pi{x}}}_{x - 1,y - 1} \\ & {\rm{DI}}{{\rm{R}}_{\rm{AH}}} = {\rm{Pi{x}}}_{x - 1,y - 1} + {\rm{Pi{x}}}_{x,y - 1} - {\rm{Pi{x}}}_{x - 1,y - 2} - {\rm{Pi{x}}}_{x,y - 2} \\ & {\rm{DI}}{{\rm{R}}_{\rm{BV}}} = {\rm{Pi{x}}}_{x - 1,y - 1} + {\rm{Pi{x}}}_{x - 1,y} - {\rm{Pi{x}}}_{x - 2,y - 1} - {\rm{Pi{x}}}_{x - 2,y} \\ & {\rm{DI}}{{\rm{R}}_{\rm{AV}}} = {\rm{Pi{x}}}_{x,y - {2}} + {\rm{Pi{x}}}_{{x},{y} - 1} - {\rm{Pi{x}}}_{x - 1,y - 2} - {\rm{Pi{x}}}_{x - 1,y - 1} \end{aligned} \right.}$$ (1)
      $${\begin{aligned} & {{{D}}_{\rm{MAX}}} = {\rm{MAX}}((|{{\rm{DIR}}_{\rm{AH}}}| + |{{\rm{DIR}}_{\rm{AV}}}|),(|{{\rm{DIR}}_{\rm{BH}}}| + |{{\rm{DIR}}_{\rm{BV}}}|)) \\ & \theta = \left\{ { {\begin{aligned} & {{\text{主方向}}\;\;{{45^\circ}}\quad\;\;\;{\rm{if}}\;\;1/2 < \eta ({{{D}}_{\rm{VMAX}}}/{{{D}}_{\rm{HMAX}}}) \leqslant 2} \\ & {{\text{辅方向}}\;\;{{67.5^\circ}}\quad\;\,{\rm{if}}\;\;{2} < \eta ({{{D}}_{\rm{VMAX}}}/{{{D}}_{\rm{HMAX}}}) \leqslant 4} \\ & {{\text{主方向}}\;\;{{90^\circ}}\quad\;\;\;{\rm{if}}\;\;|\eta ({{{D}}_{\rm{VMAX}}}/{{{D}}_{\rm{HMAX}}})| > 4} \\ & {{\text{辅方向}}\;\;{{112.5^\circ}}\quad{\rm{if}}\;\; - 4 < \eta ({{{D}}_{\rm{VMAX}}}/{{{D}}_{\rm{HMAX}}}) \leqslant - 2} \\ & {{\text{主方向}}\;\;{{135^\circ}}\quad\;\;{\rm{if}}\;\; - 2 < \eta ({{{D}}_{\rm{VMAX}}}/{{{D}}_{\rm{HMAX}}}) \leqslant - 1} \\ & {{\text{辅方向}}\;\;{{157.5^\circ}}\;{\rm{if}}\;\; - 1 < \eta ({{{D}}_{\rm{VMAX}}}/{{{D}}_{\rm{HMAX}}}) \leqslant - 1/4} \\ & {{\text{主方向}}\;\;{{180^\circ}}\;\;\;{\rm{if}}\;\; - 1/4 < \eta ({{{D}}_{\rm{VMAX}}}/{{{D}}_{\rm{HMAX}}}) \leqslant 1/2} \end{aligned}} } \right. \\ \end{aligned} }$$ (2)
    • CAQO采用离散平稳高斯[15]率失真函数[16],通过式(3),以QP为媒介,在图像质量Distortion和压缩率rate之间进行动态的平衡,如式(3)所示。

      $$\left\{ \begin{aligned} & {\rm{Distortion}} = {\rm{MIN}}({\rm{Q{S}}^2}/12,\varPsi + \varDelta ) \\ & {\rm{Rate}} = {\rm{MAX}}(0,0.5{\log _2}(\varPsi + \varDelta 12/({\rm{Q{S}}^2}))) \end{aligned} \right.$$ (3)

      式中,离散变换块Ψ和量化噪声的功率谱密度$\varDelta$由Mvx和Mvy计算得到,并由式(4)计算得到QP,此时像素的QR为PR右移QP个bit。

      $$\begin{aligned} &\quad \qquad \qquad \qquad \qquad \varDelta = {2^{2 {\rm{QP}}}}/\alpha \\ & \qquad \qquad \qquad {{\bf \varTheta} _X}{\rm{ = }}({\rm{|}}{\rm{Mv}}{{\rm{x}}_{{\rm{x}},y}}{\rm{| > 8}})?2:1 \\ & \qquad \qquad \qquad {\bf \varTheta _Y}{\rm{ = }}({\rm{|}}{\rm{Mv}}{{\rm{y}}_{{\rm{x}},y}}{\rm{| > 8}})?2:1 \\ & \qquad \qquad M{\rm{Mv}}{{\rm{x}}_{x,y}} = od ({\rm{Mv}}{{\rm{x}}_{x,y}},4)/4 \\ & \qquad\qquad M{\rm{Mv}}{{\rm{y}}_{x,y}} = od ({\rm{Mv}}{{\rm{y}}_{x,y}},4)/4 \\ & \quad \quad {\rm{d}}x_{x,y} = {P_{2x,2y + 1}} + {P_{2x + 1,2y + 1}} - {P_{2x,2y}} + {P_{2x + 1,2y}} \\ & \quad \quad {\rm{d}}y_{x,y} = {P_{2x + 1,2y}} + {P_{2x + 1,2y + 1}} - {P_{2x,2y}} + {P_{2x,2y + 1}} \\ & \varPsi = \frac{{\displaystyle\sum\limits_{x = 0}^7 {\displaystyle\sum\limits_{y = 0}^7 {({\rm{d}}x_{x,y}^2M{\rm{Mv}}{{\rm{x}}_{{{x}},y}}^2{{\bf \varTheta} _{{{{X}}}}} + {\rm{d}}y_{x,y}^2M{\rm{Mv}}{{\rm{y}}_{x,y}}^2{{\bf \varTheta} _{{{{Y}}}}})} } }}{{64}} \\ & {\rm{QP}} = \\ &\min \left(3\left\{ {\begin{aligned} & {{0}\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\varPsi < ({\rm{Q}}{{\rm{S}}^2}/12)} \\ & {0.5{{\rm{{\log }}}_2}\left(\frac{{2 \varPsi {\rm{{\log }}_{\rm{2}}}\left(\dfrac{\varPsi }{{{\rm{QS}^2}/12}}\right)}}{{10\;000}}\right)\;\varPsi \geqslant ({\rm{QS}^2}/12)} \end{aligned}} \right. \right) \\ \end{aligned} $$ (4)
    • 表 1  QUO码表

      QRk=0k=1k=2k=3
      00000000000
      ±110010010001
      ±21101000100010
      ±311101010110100
      ±4111100110010000101
      ±5111101110110010110
      ${\vdots} $${\vdots} $${\vdots} $${\vdots} $${\vdots} $

      哥伦布编码通过式(5)拆分QR为k值、商QUO和余数REM。如表1所示,对QUO进行查表编码,对REM直接传输,根据纹理相关性原则,k值为已编码的临近像素所采用的k值。

      $${\rm{QR}} = {\rm{QUO}}k + {\rm{REM}}$$ (5)
    • 通过分析发现CAQO有如下待改进之处:

      1)方向性预测仅采用最大梯度作为最优预测方向,会导致预测的稳定性较差,并且预测方向的数量限制不能使PR进一步减少。

      2)离散平稳高斯率失真模型中,不仅没有考虑到纹理方向对功率谱密度的影响,而且也没有考虑传递效应对QS的影响,以至于计算得到的QP不是最优解。

      3)在QUO码表中,QR没有考虑符号位的相关性,只是简单地进行单独编码;不对商进行限幅处理,一定概率会产生最终编码bit数远超过原始数据bit数的膨胀现象;对于图像纹理较复杂的区域,利用图像方向相关性的原则去计算k值,该方法的适应性较差;对于图像纹理较平坦区域,压缩率提升空间较小。

      为解决上述问题,本文提出了一种纹理感知多模式编码的帧存有损压缩算法(a texture perception multimode coding for frame memory lossy compression, TPMC)。实验结果显示,相对于CAQO算法,本算法不但有着更高的压缩率,同时在峰值信噪比和平均编码时间两方面和CAQO算法保持性能持平。

    • 由于CAQO算法存在一定的缺陷,因此为了在不影响图像性能质量的前提下进一步提高压缩效率,本文提出TPMC算法。它基于 block 16×16(长和宽各有16个像素)作为预测和量化的基本单元,以block 16×1(长有16个像素,宽只有一个像素)作为熵编码的基本单元,首先对当前像素进行纹理感知,并采用权重插值的方法计算PR,然后根据优化的离散平稳高斯率失真公式得到新的QP和QR,最后对QR进行多模式自适应编码。

    • 为了充分利用当前像素Pij周围的4个重建像素,获得更小的PR,采用如下步骤:

      1)根据不同位置的权重,采用式(6)获取4个纹理梯度值,并计算其中梯度最小值Dminst和次小值Dminer,分别对应纹理主方向和辅方向,4个纹理方向如图2 所示。

      2)如式(7)所示,若纹理主方向和辅方向差异为90°,说明该区域纹理复杂,则采用均值策略计算参考像素值;否则采用权重插值策略计算参考像素值。式(7)中PminstPminer分别为与当前紧相邻的4个像素中,纹理主方向和辅方向对应的像素值。

      图  2  预测示意图

      $$\begin{split} & {D_h} = (|{P_{i + 1,j - 2}} - {P_{i + 1,j - 1}}| + 2 |{P_{i,j - 2}} - {P_{i,j - 1}}|+ \\ & |{P_{i - 1,j}} - {P_{i - 1,j - 1}}| + |{P_{i - 1,j - 2}} - {P_{i - 1,j - 1}}|)/5 \\ & {D_v} = (|{P_{i - 1,j - 1}} - {P_{i,j - 1}}| + |{P_{i,j - 1}} - {P_{i + 1,j - 1}}| +\\ &\qquad\;\; 2 |{P_{i - 2,j}} - {P_{i - 1,j - 1}}|)/4 \\ & {D_/} = (|{P_{i - 1,j}} - {P_{i,j - 1}}| + |{P_{i,j - 1}} - {P_{i + 1,j - 2}}|+\\ & \qquad\;\; 2 |{P_{i + 1,j - 1}} - {P_{i + 2,j - 2}}|)/4 \\ & \;\;\; {D_\backslash } = (|{P_{i - 1,j}} - {P_{i - 2,j - 1}}| + |{P_{i - 1,j - 2}}- \\ &\;\;\; {P_{i,j - 1}}| + 2 |{P_{i - 1,j - 1}} - {P_{i - 2,j - 2}}|)/4 \end{split} $$ (6)
      $$R = \left\{ {\begin{aligned} & {({P_{\min{{\rm\!{st}}}}} {D_{\min{\rm\!{er}}}} + {P_{\min{\rm\!{er}}}} {D_{\min{\rm\!{st}}}})/({D_{\min{\rm\!{er}}}} + {D_{\min{\rm\!{st}}}})} \\ &{{\rm{if}}|{P_{\min{\rm\!{st}}}} - {P_{\min{\rm\!{er}}}}| =\!\! = 90} \\ & {({P_{i - 1,j}} + {P_{i - 1,j - 1}} + {P_{i,j - 1}} + {P_{i + 1,j - 1}})/4}\quad {\rm{else}} \end{aligned}} \right.$$ (7)
    • 首先,为了更大限度地满足自然图像的纹理特征,通过式(8),针对梯度值和运动矢量,从仅有的水平和垂直方向的拟合扩展到4个方向的拟合,并选取最小梯度值方向为最终梯度方向:

      $$\begin{split} &\;\; \varPsi = \frac{{\displaystyle\sum\limits_{{{x}} = 0}^7 {\displaystyle\sum\limits_{{{y}} = 0}^7 {({\rm{d}}_{x,y}^2({\rm{Mvy}}_{x,y}^2 + {\rm{Mvx}}_{x,y}^2)\bf \varTheta )} } }}{{64}}\\ &\quad {\varTheta {\rm{ = }}\left( {{\rm{|}}\sqrt {{\rm{Mvy}}_{x,y}^2 + {\rm{Mvx}}_{x,y}^2} {\rm{| > 8}}} \right)}?2:1\\ & d00_{x,y} = {P_{2x,2y + 1}} + {P_{2x + 1,2y + 1}} - {P_{2x,2y}} + {P_{2x + 1,2y}}\\ & d90_{x,y} = {P_{2x + 1,2y}} + {P_{2x + 1,2y + 1}} - {P_{2x,2y}} + {P_{2x,2y + 1}} \end{split}$$
      $$\begin{split} &\qquad\;\; d45_{x,y} = {P_{2x + 1,2y}} - {P_{2x,2y + 1}}\\ &\qquad\;\; d135_{x,y} = {P_{2x,2y}} - {P_{2x + 1,2y + 1}}\\ &\;\; d_{i,j} = {\rm{MIN}}(d00_{i,j},d90_{i,j},d45_{i,j},d135_{i,j}) \end{split}$$ (8)

      其次,在根据当前压缩单元计算当前帧重建图像的同时,由于传递效应的存在,重建图像作为参考帧也会影响后续其他帧的编码,即误差在帧间的传递和扩散,因此在计算高斯平稳率失真模型中的QS时,需要考虑到运动方向(motion vector, MV)的相关性和多帧时帧间相同位置QS的相关性,如式(9)所示。

      $${\rm{QS}} = \frac{1}{\rm{{{refnum}}}}\sum\limits_{i = 0}^{\rm{{refnum}}} {{\rm{QS}}({\rm{C}}{{\rm{U}}_{{\rm{cur}}}\_{\rm{mvn}}})} $$ (9)

      式中,CUcur_mvn表示当前位置对应的编码单元经过MV的n次迭代运算后所指向的编码单元;refnum表示解码过程中参考帧的个数。

      最终,将更新的QS和Ψ取代式(4)中的QS和Ψ,重新计算得到当前压缩单元的QP,并采用式(10)以消除符号位,从而得到QR:

      $$\begin{split} &\qquad\;\; {\rm{temp}} = {\rm{PR}} > > {\rm{QP}} \\ & {\rm{QR}} = \left\{ {\begin{aligned} & {2 {\rm{temp}}} \;\;\;\; \;\;\;\; \;\;{\rm{{temp}}}{\geqslant 0}\\ & {1 - 2 {\rm{temp}}} \;\;\;\;{\text{其他}} \end{aligned}} \right. \end{split} $$ (10)
    • 对于纹理复杂区域,QR差异较大导致k值相关性较差,且由于没有对k值限幅,因此哥伦布一元编码会导致压缩率较差甚至过膨胀现象;对于纹理平坦区域,QR较小且大多为0,因此哥伦布一元编码不能进一步减少编码比特数。为了克服以上问题,多模式编码被提出。多模式编码针对不同纹理区域,采用不同的编码模式,流程图如图3所示。

      图  3  多模式编码图

      对于每个block 16×1的熵编码单元,若当前的量化残差全为0,则采用游程模式进行编码,以最大程度的降低编码bit数,否则采用自适应k的哥伦布编码和直传编码两种模式同时进行预编码,然后根据预编码bit数的多少选择bit数较少的编码模式作为最终的编码模式。同时消耗2 bit把最终选择的编码模式写入到码流。对于3种编码模式,具体说明如下:

      1)游程编码采用1个符号位表示16×1个QR全部为0的情况:解码端若解析到编码模式为游程编码,则恢复该编码单元的所有QR全部为0。

      2)直传编码,首先计算该编码单元所有QR的最大比特位宽,然后把最大位宽写入码流,最后按该位宽把每个QR写入码流。解码端首先解析最大比特位宽,然后按照该位宽解析每个QR。

      3)自适应k的哥伦布编码,根据式(11),k值由上一个QR计算得到:

      $$k = {\log _2}\left( {{\rm{QR}}{}_{{\rm{last}}} + 1} \right)$$ (11)

      由于k值范围扩大,降低了最大商出现的可能性,因此多维码表可以变为1维码表,且为了限制膨胀,码表中应规定商的逃逸值,1维的商码表如表2所示。

      表 2  哥伦布商码表

      余数
      码字码长码字码长
      011余数k
      1103余数k
      21003余数k
      310004余数k
      4100005余数k
      510000007余数k
      611000007余数k
      7100000008余数k
      >7110000008PDPD的比特位宽
    • 相对CAQO算法,本文算法分别从压缩率和运算量两方面进行分析。

      在压缩率方面,本算法首先在预测步骤中采用了纹理感知的特性,并利用周围重建像素和权重插值,提高了预测精度和稳定性;同时在量化步骤中优化了率失真模型,得到了更优的QP并消除了符号位;最后在编码步骤中区分纹区域理特性以采用不同的编码模式,最终提高了压缩率。

      在计算量方面,CAQO在预测过程中有23次加减等基本运算和2次乘除运算,TPMC有34次加减基本运算和3次乘除法运算;CAQO和TPMC在量化过程中的运算量差不多;相对CAQO采用的哥伦布编码,TPMC采用的游程编码和直传编码在编码过程中省去了更多计算步骤,计算量有明显下降。

    • 为了比较本文算法与CAQO的算法性能,将算法嵌入HEVC后,分别从压缩率(compression ratio, CR)、PSNR和相对编码时间(relative encoding time, RET)3个维度进行测试。整个实验可分为两类,第一类实验将两种算法单独步骤的性能对比,第二类实验将两种算法的整体性能对比。测试平台为HM16.8,运行环境为Inter I5-6400 CPU@2.7GHz、8G内存、Win7 64位系统。CR和RET计算公式如式(12)所示。

      $$\begin{split} & {\rm{CR}} = \left( {1 - {\rm{Size}}{}_{{\rm{bs}}}/{\rm{Size}}{}_{{\rm{ori}}}} \right) \times100\% \\ & {\rm{RET}} = \left( {{\rm{Time}}{}_{{\rm{TPMC}}}/{\rm{Time}}{}_{{\rm{CAQO}}}} \right) \times100\% \\ & \Delta {\rm{PSNR}} = {\rm{PSNR}}{}_{a\lg }/{\rm{PSNR}}{}_{{\rm{ori}}} \\ \end{split} $$ (12)

      式中,Sizeori和Sizebs分别为压缩前后数据量大小;TimeTPMC和TimeCAQO分别为本算法和CAQO算法的编码时间;PSNRalg和PSNRori分别为算法嵌入HEVC和不嵌入HEVC后的峰值信噪比。CR越大,说明本文算法压缩率越好;RET越小,说明本文算法的编码时间相对越少;△PSNR越小,说明对应算法嵌入HEVC后,HEVC编码的图像质量下降越少。

      在测试序列的选择上,本实验根据图像纹理的复杂度情况,选择了3类共9个序列进行对比分析,以确保涵盖不同的特征图像,即3个图像纹理较复杂序列、3个图像纹理中等序列和3个图像纹理较简单序列。

      第一类实验结果如表3所示。从横向对比可以看出,本文的预测模块由于采用了方向拟合预测,较CAQO的7种方向预测有更多的预测方向,所以在CR方面,对于racehorses序列有3.33%的收益,但是RET增长较为明显;本文的率失真模块在CR方面,较CAQO更有平均6.47%的增长,在RET方面和CAAQ算法持平;本文的编码模块,由于采用了游程编码,RET有大幅度的下降。纵向对比可以看出,预测模块和编码模块对CR的提高帮助最大。

      第二类实验结果如表4所示。在CR方面,相对CAQO,本文算法的鲁棒性更强,插值预测的精度更高,因此得到的预测残差较小;其次,由于本文算法优化了高斯平稳噪声率失真模型,得到更准确的量化残差;最后针对不同的图像纹理区域特量化残差的特性,在不同的编码模式之间自适应选择,从而提高压缩率。由表4可以看出,本算法对于简单纹理序列Tennis,由于游程编码的使用,压缩率提高最大,为18.24%;对于复杂纹理序列,由于直传编码的采用,压缩率也有很大的提高;因此本文算法较CAQO,平均CR有14.8%的提高。

      表 3  本文算法与CAQO算法各模块的压缩性能对比

      序列CR/%△PSNR/dBRET/%
      CAQO本文CAQO本文
      预测Tennis44.1556.12−0.01−0.01123.31
      crowdrun47.8948.14−0.03−0.03125.35
      racehorses47.1250.45−0.02−0.02131.89
      平均46.3951.57−0.02−0.02126.85
      率失真Tennis23.1430.210.000.00101.11
      crowdrun27.8733.120.000.00100.98
      racehorses27.5434.630.010.02103.15
      平均26.1832.650.000.01101.75
      编码Tennis42.2350.61−0.02−0.0251.14
      crowdrun43.1951.72−0.06−0.0553.23
      racehorses45.6755.43−0.04−0.0554.38
      平均43.7052.59−0.04−0.0552.92

      表 4  本文算法与CAQO算法压缩的性能对比

      序列CR/%△PSNR/dBRET/%
      CAQO本文CAQO本文
      Tennis78.2196.45−0.02−0.0192.11
      bluesky80.2695.21−0.05−0.0793.42
      Johnny81.3994.12−0.05−0.0191.65
      crowdrun71.2183.54−0.06−0.0498.12
      traffic70.9588.45−0.07−0.08102.2
      stockholm70.1285.12−0.08−0.0999.16
      racehorses64.3681.13−0.06−0.07109.57
      riverbed60.2176.42−0.09−0.08111.56
      mobcal59.7669.21−0.08−0.07110.21
      平均70.7285.52−0.06−0.06100.89

      在算法复杂度方面,对于量化步骤,本文算法与CAQO的计算复杂度基本一致;对于预测步骤,本文算法是CAQO的计算复量的1.5倍;对于编码步骤,本文算法较CAQO,游程编码和直传编码节约了大量的编码时间。由表4可以看出,简单纹理序列本文算法RET较小,反之较大。综上分析,两种算法的平均计算复杂度基本相同。

    • 为了解决日益突出的图像带宽问题,本文对基于帧存技术的CAQO算法原理和缺点做了深入分析,提出了TPMC算法。TPMC首先感知当前像素的纹理方向,为每个像素进行方向性插值得到的参考像素,并计算获得PR;然后从功率谱密度和QS维度优化了率失真模型,得到QP;最后针对不同类型的纹理区域和QR分布,分别采用游程、直传或自适应k的哥伦布进行编码,最终在不提升算法复杂度的前提下,进一步提高了压缩率。实验结果显示,与CAQO算法相比,在编码时间相同的情况下,本文算法提升平均14.8%的CR。

参考文献 (16)

目录

    /

    返回文章
    返回