基于模块相似性的超分网络剪枝

周仁爽; 陈尧森; 郭兵; 沈艳; 李杰; 王炜

doi:10.12178/1001-0548.2021126

基于模块相似性的超分网络剪枝

doi: 10.12178/1001-0548.2021126

周仁爽^{1, 2},
陈尧森^{1, 2},
郭兵^1, ,,
沈艳³,
李杰²,
王炜^{1, 2, 4}

1.
四川大学计算机学院　成都　610065
2.
成都索贝数码科技股份有限公司　成都　610041
3.
成都信息工程大学计算机学院　成都　610225
4.
鹏城实验室　广东深圳　518055

详细信息

作者简介:
周仁爽(1996 − )，男，主要从事深度神经网络压缩方面的研究

通讯作者: 郭兵，E-mail：guobing@scu.edu.cn

中图分类号: TP183

Module Similarity-Based Pruning for Image Super-Resolution Network

ZHOU Renshuang^{1, 2},
CHEN Yaosen^{1, 2},
GUO Bing^{1
, ,},
SHEN Yan³,
LI Jie²,
WANG Wei^{1, 2, 4}

1.
College of Computer Science, Sichuan University　Chengdu　610065
2.
Chengdu Sobey Digital Technology Co., Ltd　Chengdu　610041
3.
School of Computer Science, Chengdu University of Information Technology　Chengdu　610225
4.
Peng Cheng Laboratory　Shenzhen Guangdong　518055

摘要: 该文针对单图像超分辨率网络(SISR)提出了一种简单的网络剪枝方法。该方法通过评估超分网络中各模块的相似性，用一种简单办法将相似度转换为各模块对网络的贡献程度，从而找到对超分网络相对不重要的模块进行网络剪枝，达到超分辨率网络压缩的目的。通过基于模块相似性的超分网络剪枝，原本参数量庞大的超分网络得到了压缩，参数量和运算量都大幅下降。实验表明，通过剪枝后的超分网络其参数量可以下降60%以上，同时精度下降不超过0.1%，对超分网络部署到低性能平台有着实际意义。
- 超分辨率 /
- 网络压缩 /
- 模块相似性 /
- 网络剪枝
Abstract: This paper proposes a network pruning method for single image super-resolution network (SISR). This method evaluates the similarity of each module in the super-resolution network and uses a simple method to convert the similarity into the contribution degree of each module to the network, and find the relatively unimportant modules of the network to perform network pruning. Through the method of network pruning for the super-resolution network based on the module similarity, the super-resolution network with a huge amount of parameters is compressed, and the number of parameters and the amount of calculation are greatly reduced. Experiments show that the parameters of the super-resolution network after pruning can be reduced by more than 60%, while the accuracy is not reduced by more than 0.1%, which has great practical significance for the deployment of the super-resolution network to a low-performance platform.
- image super-resolution network /
- model compression /
- module similarity /
- network pruning

图 1 超分网络常见结构

下载: 全尺寸图片幻灯片

图 2 EDSR模块相似性

下载: 全尺寸图片幻灯片

图 3 EDSR模块贡献分布

下载: 全尺寸图片幻灯片

图 4 超分模块剪枝的步骤

下载: 全尺寸图片幻灯片

图 5 可视化测试结果

下载: 全尺寸图片幻灯片

图 6 模块的相对独立性验证

下载: 全尺寸图片幻灯片

表 1 超分模块剪枝的定量结果

Model	Params×10⁶	Flops×10⁹	PSNR/ dB ，SSIM
Model	Params×10⁶	Flops×10⁹	Set5	Set14	BSD100	Urban100
EDSR_×2	40.73	2671	38.19，0.9601	33.94，0.9193	32.36，0.9011	32.97，0.9351
EDSR_×2_16	21.85	1433	38.16，0.9601	33.81，0.9188	32.29，0.9004	32.62，0.9322
EDSR_×2_8	12.41	814	38.06，0.9598	33.73，0.9181	32.23，0.8994	32.33，0.9292
RCAN_×2	15.44	1005	38.27，0.9606	34.11，0.9208	32.41，0.9018	33.34，0.9374
RCAN_×2_6	5.02	327	38.19，0.9603	33.85，0.9191	32.31，0.9006	32.85，0.9336

下载: 导出CSV

表 2 超分模块剪枝对EDSR预测速度的提升

Model	预测时间/s	GPU显存占用/MB
EDSR_×2	5.11	834.79
EDSR_×2_16	2.73	759.26
EDSR_×2_8	1.58	721.50

下载: 导出CSV

表 3 超分模块剪枝有效性实验结果

Model	Block Num	PSNR/dB
EDSR_x2	32	35.03
Scratch	8	34.74
Random	8	34.75
Pruned	8	34.78

下载: 导出CSV

表 4 不同的相似度计算方法对比

方法	PSNR/dB
均方误差	34.72
余弦相似度	34.78

下载: 导出CSV

表 5 RCAN上不同数据集PSNR对比 dB

方法	Block Num	Set5	Set14	BSD100	Urban100
文献[37]	6	38.16	33.81	32.27	32.53
本文	6	38.19	33.85	32.31	32.85

下载: 导出CSV

[1]	CABALLERO J. Cardiac image super-resolution with global correspondence using multi-atlas patchmatch[J]. Med Image Comput Comput Assist Interv, 2013, 16(3): 9-16.
[2]	DAI D, WANG Y, CHEN Y, et al. Is image super-resolution helpful for other vision tasks?[C]//2016 IEEE Winter Conference on Applications of Computer Vision (WACV). Piscataway: IEEE, 2016: 1-9.
[3]	SAJJADI M, SCHOLKOPF B, HIRSCH M. EnhanceNet: Single image super-resolution through automated texture synthesis[C]//IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 4491-4500.
[4]	KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[J]. Advances in Neural Information Processing Systems, 2012, 25(2): 1097-1105.
[5]	DONG C, LOY C C, HE K, et al. Image super-resolution using deep convolutional networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 38(2): 295-307.
[6]	YANG J, WRIGHT J, HUANG T, et al. Image super-resolution as sparse representation of raw image patches[C]//2008 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2008: 1-8.
[7]	YANG J, WRIGHT J, HUANG T S, et al. Image super-resolution via sparse representation[J]. IEEE Transactions on Image Processing, 2010, 19(11): 2861-2873. doi: 10.1109/TIP.2010.2050625
[8]	LEDIG C, THEIS L, HUSZÁR F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 4681-4690.
[9]	LIM B, SON S, KIM H, et al. Enhanced deep residual networks for single image super-resolution[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Piscataway: IEEE, 2017: 136-144.
[10]	HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.
[11]	ZHANG Y, LI K, LI K, et al. Image super-resolution using very deep residual channel attention networks[C]//Proceedings of the European Conference on Computer Vision (ECCV). Munich: ECCV, 2018: 286-301.
[12]	COURBARIAUX M, HUBARA I, SOUDRY D, et al. Binarized neural networks: Training deep neural networks with weights and activations constrained to+1 or-1[EB/OL]. [2021-03-15]. https://arxiv.org/abs/1602.02830.
[13]	JACOB B, KLIGYS S, CHEN B, et al. Quantization and training of neural networks for efficient integer-arithmetic-only inference[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 2704-2713.
[14]	LI H, YAN C, LIN S, et al. PAMS: Quantized super-resolution via parameterized max scale[EB/OL]. [2021-03-15]. https://arxiv.org/abs/2011.04212.
[15]	HINTON G, VINYALS O, DEAN J. Distilling the knowledge in a neural network[EB/OL]. [2021-03-20]. https://arxiv.org/abs/1503.02531.
[16]	YIM J, JOO D, BAE J, et al. A gift from knowledge distillation: Fast optimization, network minimization and transfer learning[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 4133-4141.
[17]	GAO Q, ZHAO Y, LI G, et al. Image super-resolution using knowledge distillation[C]//Asian Conference on Computer Vision. Cham: Springer, 2018: 527-541.
[18]	LI H, KADAV A, DURDANOVIC I, et al. Pruning filters for efficient convnets[EB/OL]. [2021-03-18]. https://arxiv.org/abs/1608.08710.
[19]	GAO S, HUANG F, CAI W, et al. Network pruning via performance maximization[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2021: 9270-9280.
[20]	HE Y, ZHANG X, SUN J. Channel pruning for accelerating very deep neural networks[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 1389-1397.
[21]	LIN S, JI R, YAN C, et al. Towards optimal structured cnn pruning via generative adversarial learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 2790-2799.
[22]	HOU Z, KUNG S Y. Efficient image super resolution via channel discriminative deep neural network pruning[C]//ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Piscataway: IEEE, 2020: 3647-3651.
[23]	KIM J, LEE J K, LEE K M. Accurate image super-resolution using very deep convolutional networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1646-1654.
[24]	ZHANG Y, TIAN Y, KONG Y, et al. Residual dense network for image super-resolution[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 2472-2481.
[25]	CHEN Y, GUO B, SHEN Y, et al. Using efficient group pseudo-3D network to learn spatio-temporal features[J]. Signal, Image and Video Processing, 2021, 15(2): 361-369. doi: 10.1007/s11760-020-01758-5
[26]	HOWARD A G, ZHU M, CHEN B, et al. Mobilenets: Efficient convolutional neural networks for mobile vision applications[EB/OL]. [2021-03-15]. https://arxiv.org/abs/1704.04861.
[27]	SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[EB/OL]. [2021-03-15]. https://arxiv.org/abs/1409.4842.
[28]	DENIL M, SHAKIBI B, DINH L, et al. Predicting parameters in deep learning[EB/OL]. [2021-04-05]. https://arxiv.org/abs/1306.0543.
[29]	HAN S, POOL J, TRAN J, et al. Learning both weights and connections for efficient neural networks[EB/OL]. [2021-03-12]. https://arxiv.org/abs/1506.02626.
[30]	HAN S, MAO H, DALLY W J. Deep compression: Compressing deep neural networks with pruning, trained quantization and huffman coding[EB/OL]. [2021-03-15]. https://arxiv.org/abs/1510.00149.
[31]	KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90. doi: 10.1145/3065386
[32]	SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2021-03-15]. https://arxiv.org/abs/1409.1556.
[33]	LI H H, KADAV A, DURDANOVIC I, et al. Pruning filters for efficient convnets[EB/OL]. [2021-03-15]. https://arxiv.org/abs/1608.08710.
[34]	LIU Z, LI J, SHEN Z, et al. Learning efficient convolutional networks through network slimming[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2736-2744.
[35]	CHEN S, ZHAO Q. Shallowing deep networks: Layer-wise pruning based on feature representations[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 41(12): 3048-3056.
[36]	ALAIN G, BENGIO Y. Understanding intermediate layers using linear classifier probes[EB/OL]. [2021-03-12]. https://arxiv.org/abs/1610.01644.
[37]	HE Z, DAI T, LU J, et al. Fakd: Feature-affinity based knowledge distillation for efficient image super-resolution[C]//2020 IEEE International Conference on Image Processing (ICIP). Piscataway: IEEE, 2020: 518-522.
[38]	DAI T, CAI J, ZHANG Y, et al. Second-order attention network for single image super-resolution[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 11065-11074.
[39]	AGUSTSSON E, TIMOFTE R. Ntire 2017 challenge on single image super-resolution: Dataset and study[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Piscataway: IEEE, 2017: 126-135.
[40]	BEVILACQUA M, ROUMY A, GUILLEMOT C, et al. Low-complexity single-image super-resolution based on nonnegative neighbor embedding[J]. British Machine Vision Conference, 2012, 135(1): 1-10.
[41]	ZEYDE R, ELAD M, PROTTER M. On single image scale-up using sparse-representations[C]//International Conference on Curves and Surfaces. Berlin, Heidelberg: Springer, 2010: 711-730.
[42]	MARTIN D, FOWLKES C, TAL D, et al. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics[C]//Proceedings Eighth IEEE International Conference on Computer Vision. [S.l.]: IEEE, 2001: 416-423.
[43]	HUANG J B, SINGH A, AHUJA N. Single image super-resolution from transformed self-exemplars[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 5197-5206.

[1]	莫太平, 黄巧人, 陈德鸿, 伍锡如, 张向文. 改进可逆缩放网络的图像超分辨率重建 . 电子科技大学学报, 2023, 52(5): 739-746. doi: 10.12178/1001-0548.2022261
[2]	达婷, 杨靓. 一种低分辨率视频实例分割算法的研究 . 电子科技大学学报, 2021, 50(1): 63-75. doi: 10.12178/1001-0548.2020075
[3]	李艳丽, 周涛. 链路预测中的局部相似性指标 . 电子科技大学学报, 2021, 50(3): 422-427. doi: 10.12178/1001-0548.2021062
[4]	程静静, 樊瑛. 基于网络相似性测度的国际贸易产品分类 . 电子科技大学学报, 2021, 50(2): 303-310. doi: 10.12178/1001-0548.2020252
[5]	邵继业, 谢昭灵, 杨瑞. 基于GA-PSO优化BP神经网络的压缩机气阀故障诊断 . 电子科技大学学报, 2018, 47(5): 781-787. doi: 10.3969/j.issn.1001-0548.2018.05.023
[6]	牛伟纳, 张小松, 孙恩博, 杨国武, 赵凌园. 基于流相似性的两阶段P2P僵尸网络检测方法 . 电子科技大学学报, 2017, 46(6): 902-906, 948. doi: 10.3969/j.issn.1001-0548.2017.06.019
[7]	吴炜, 杨晓敏, 余艳梅, 石一兴, 何小海. 核偏最小二乘算法的图像超分辨率算法 . 电子科技大学学报, 2011, 40(1): 105-110. doi: 10.3969/j.issn.1001-0548.2011.01.020
[8]	任笑真, 杨汝良. 机载前视SAR三维成像原理及分辨率分析 . 电子科技大学学报, 2010, 39(5): 706-710,724. doi: 10.3969/j.issn.1001-0548.2010.05.013
[9]	况凌, 沈晓峰, 杨万麟. 频率源稳定性对双基地SAR的分辨率影响 . 电子科技大学学报, 2009, 38(2): 165-168. doi: 10.3969/j.issn.1001-0548.2009.02.02
[10]	李光伟, 陈志杰, 李建勋. Delaunay三角剖分插值用于超分辨成像 . 电子科技大学学报, 2009, 38(4): 617-620. doi: 10.3969/j.issn.1001-0548.2009.04.033
[11]	张伟, 师奕兵, 王志刚. 随钻声波测井数据压缩的小波神经网络法 . 电子科技大学学报, 2008, 37(6): 900-903,921.
[12]	杨军, 佘堃, 钟守铭. 一种基于位平面分解的多分辨率数字水印算法 . 电子科技大学学报, 2007, 36(3): 563-565,572.
[13]	林蓉平, 王晟, 李乐民. 一种考虑阻塞率的WDM网络可用性算法 . 电子科技大学学报, 2007, 36(1): 1-4.
[14]	李军建, 成建波, 蒋泉, 陈守卫. CRT显示管分辨率自动测量系统 . 电子科技大学学报, 2007, 36(2): 288-290.
[15]	傅彦, 周俊临, 吴跃. 快速神经网络无损压缩方法研究 . 电子科技大学学报, 2007, 36(6): 1245-1248.
[16]	侯晶, 张先迪. 广义超立方体网络的容错性和通信延迟 . 电子科技大学学报, 2006, 35(2): 268-270.
[17]	成建波, 王琼华, 林祖伦. 高亮度高分辨率YAG投影显示管 . 电子科技大学学报, 2000, 29(3): 289-293.
[18]	李光球, 许强. 瑞利衰落信道多分辨率64QAM的性能研究 . 电子科技大学学报, 1998, 27(3): 236-240.
[19]	刘国庆, 黄顺吉. 纹理SAR图像的多分辨率分析和分类(英文) . 电子科技大学学报, 1997, 26(6): 585-589.
[20]	杨峰, 聂在平, 阮颖铮. 高分辨率复杂电极系的高效数值模拟 . 电子科技大学学报, 1997, 26(3): 254-257.

点击查看大图

图(6) / 表(5)

计量

文章访问数: 4076
HTML全文浏览量: 1538
PDF下载量: 57
被引次数: 0

全文HTML

单图像超分(single image super resolution, SISR)是一种经典的机器视觉任务，其目的是从低分辨率图像中重构出高分辨率图像。图像超分被广泛应用于许多机器视觉的任务中，如医学影像^[1]、监控影像^[2]、目标识别^[3]等，其巨大的应用前景，成为了机器视觉领域的研究热点。

随着卷积神经网络(convolution neural network, CNN)^[4]的出现，基于深度学习的超分网络因其强大的特征表达能力在图像超分领域取得了优异的表现，并逐渐在图像超分领域中占据了主导地位。文献[5]最早提出了基于CNN的图像超分网络(super-resolution convolutional neural network, SRCNN)，其从稀疏编码^[6-7]中汲取灵感，使用了一个3层的CNN结构实现了低分辨率到高分辨率的图像重建。此后基于CNN的超分网络被不断提出，并一直刷新着超分网络的最佳性能表现。其中SRResNet^[8]、EDSR^[9]等网络采用了类似文献[10]提出的残差网络结构，构建出了由残差模块堆砌出的具有相当深度的网络结构。文献[11]更是提出了RIR(residual in residual)的结构，将网络深度提高到了400多层，取得了惊人的性能表现。然而在超分网络深度不断加深的同时，基于CNN的超分网络也面临着资源消耗越来越大的难题。在实际应用中，更深的超分网络带来了出色的性能表现，但同时也带来了庞大的参数量和浮点操作计算量(FLOPs)，如RCAN(residual channel attention networks)便拥有着30 ×10⁹的FLOPs以及13 ×10⁶的参数量(Params)。如此庞大的计算量和内存消耗对于一些性能和存储有限的平台，特别是对移动平台和嵌入式平台的移植工作提出了巨大的挑战。因此对复杂的超分模型进行压缩优化，是非常有必要的。

网络模型压缩的目的在于尽可能地降低模型参数量和计算量，同时又不能出现明显的精度下降。目前常见的网络压缩方法有量化(quantization)^[12-14]、知识蒸馏(konwledge distillation, KD)^[15-17]和网络剪枝(network pruning)^[18-22]。量化是一种像素级别的压缩方法，通过将全精度(32 bit)的权重(weights)、激活值(activations)以及梯度值(gradients)量化到低精度(如8 bit)，从而达到压缩和加速网络的目的。然而量化的方法需要软硬件都支持低精度运算，在使用范围上大幅受限，并且容易带来模型精度的明显下降，并不适合所有网络。而知识蒸馏则是使用一个复杂强大的教师网络来监督简单小巧的学生网络训练，并将教师网络学到的知识提炼给学生网络，在模型压缩上有较好的效果。但知识蒸馏的方法需要合理地设计教师网络和学生网络，在实际使用中缺乏灵活性。相反，网络剪枝在模型压缩的方法中具备较高的灵活性，对大部分网络都能适用，且能直接有效地减少模型参数，降低模型的存储消耗，并加速模型推理，在模型压缩领域有着广泛应用。

网络剪枝作为一种常见的模型压缩方法，在一些高级别的机器视觉任务中已经得到了广泛应用，并证明了其有效性。但是在基于CNN的超分网络中却鲜有使用，因为如EDSR、RCAN等超分网络都具有独特的网络结构，如果采用常见的通道剪枝或权重稀疏等网络剪枝方法，可能会破坏原有的网络结构，造成较大的精度损失。

为了解决这个问题，本文提出了一种模块重要性的评估方法，用于评估EDSR等网络中每个残差模块对于网络的贡献程度，并移除对网络贡献度较小的模块。由于是对模块整体进行删减，因此并没有破坏网络的特殊结构，在剪去大量参数的同时也最大限度地保留了模型原有的精度。

本文的主要贡献有两点：1)提出了一种评估超分残差模块重要性的方法，该方法具有通用性，可以用于大部分超分网络。2)提出了一种超分网络剪枝的方法，通过网络剪枝降低超分网络的参数量以及运算量，降低网络的部署难度。

1. 相关工作

1.1. 基于深度学习的超分模型

自SRCNN^[5]首先将深度学习的方法用到图像超分任务上，大量基于深度学习的超分网络被相继提出。VDSR^[23]通过一个残差结构解决了网络加深所产生的梯度爆炸问题，同时通过堆积卷积核的方式获得一个较大的感受野，解决了SRCNN受限于小感受野的问题。VDSR使用了一个深的神经网络模型对低分辨率图像进行重构，并将残差结构引入超分网络，对此后很多超分网络的设计产生了影响。文献[23]认为更深的网络能够提供更大的感受野，帮助超分网络更好的重构画面细节。在这种思想的指导下，诞生了不少深度颇深的网络结构，以EDSR^[9]、RCAN^[11]、RDN^[24]为代表的网络通过堆叠残差模块(resblock)的方式解决了网络加深时带来的训练困难问题，并取得了state-of-the-art的成绩。

然而因为网络深度的加深，计算开销也随之而来，这使得将网络移植到一些硬件资源有限的设备上非常困难。为了降低网络的复杂度，使之可以部署到低性能平台，网络剪枝是一种值得考虑的方式。

1.2. 网络剪枝

文献[25-27]通过重新设计高效网络来实现降低模型参数量的目的。而网络剪枝则是从一个大网络通过压缩的方式来获得一个更加高效的小网络，泛用性更高，避免了设计网络的高门槛。神经网络模型通常是过参数的^[28]，包括了很多冗余参数，而网络剪枝的目的就是移除这部分对网络来说不重要的参数。从网络剪枝作用的层级上来说，剪枝分为非结构化剪枝和结构化剪枝。

早期的剪枝工作大都集中在非结构化剪枝，非结构化剪枝也即权重剪枝，这种剪枝方法直接作用于单个神经元的权重，可以最大化地移除冗余连接，实现最佳剪枝率。文献[29-30]通过移除网络中的绝对值较小的权重，将AlexNet^[31]的参数量降低了9倍，而VGGNet^[32]更是将参数量降低了13倍，从138 M降低至10.3 M，取得了优秀的压缩效果。然而虽然非结构化剪枝的效果十分强大，但是由于对每个神经元都剪去了不同数目的连接，导致每个节点输入和输出数目不规则。这种稀疏的结构无法利用现有的BLAS库加速矩阵运算，因此即便模型的参数降低了，模型的推理速度却没有实质性的提升。

结构化剪枝通常裁剪的是网络结构的某部分，如通道剪枝、层剪枝，而不是单独的某个权重。剪枝后的网络结构不会变得稀疏，因此结构化剪枝并不需要依赖特殊的软件库(如稀疏矩阵运算)支持，便可以直接实现模型的推理加速，相比于非结构化剪枝更加具有优势。文献[33]将网络中每个卷积核矩阵按绝对值进行求和，将得到较小值的通道从网络中移除，实现了VGGNet推理成本下降34%，ResNet110推理成本下降38%的加速效果。文献[34]则是利用Batch Normalization中的缩放因子的大小来定义对应通道的重要性，并且为了约束BN层中缩放因子的大小，在目标方程中添加了一个稀疏正则项，使得更多缩放因子在训练中接近于0，以此提高剪枝率。以上的通道剪枝方法在图像分类等高级机器视觉任务中取得了不错的压缩效果，然而在图像超分等低级任务中却实践较少。原因是目前基于CNN的图像超分网络平等地看待每个通道的特征，如果移除了部分通道可能会带来无法接受的精度损失。为了避免通道剪枝影响超分网络的特殊结构，造成较大的精度损失，本文将剪枝的范围落到了超分网络的模块(block)上。由于大部分超分网络都是由相同的模块堆砌而成，只减少模块数量并不会破坏网络的原本结构，因此模块剪枝或者说层剪枝是更适合超分网络的剪枝方法。

1.3. 层剪枝

层剪枝也是结构化剪枝的一类，相比于通道剪枝，层剪枝将剪枝的范围扩大到层级别，剪枝范围更大，能减少的参数数量也更多。文献[35]利用了文献[36]中提出的线性探针技术，计算出CNN网络中的每一层对于网络整体的贡献程度，并通过移除对网络贡献度较低的层来达到网络剪枝的目的。结合知识蒸馏后，能做到在精度几乎无损失甚至是略好于原模型的情况下大幅削减模型参数量。文献[37]中裁剪了图像超分网络RCAN和SAN^[38]的模块数量，并利用知识蒸馏(KD)的方法来恢复模型精度，最终在精度下降不多的情况下取得了较好的模型压缩效果。此方法有效地压缩了超分网络的大小，实现了性能提升，但是在选择要剪枝的模块时并没有任何指导性，仅仅是减少模块数量再借由知识蒸馏恢复网络精度。

为了解决这个问题，本文提出了一种评估模块重要性的方法，针对性地移除重要性较低的模块。由于被剪模块的选择更具有指导性，剪枝后的网络仅需要简单的微调(fine-tune)即可恢复到比较理想的精度，避免了知识蒸馏的高额时间成本，实现超分网络压缩的目的。

4. 结束语

本文提出了一种适用于常见超分网络的模块剪枝方法，通过计算模块的相似性换算得到网络中每个模块对整体网络的贡献程度，并且通过移除贡献度低的模块达到网络剪枝的目的。

相比于粒度更低的权重剪枝以及通道剪枝，本文的模块剪枝属于层剪枝范畴，操作更加灵活方便，并且在不同的网络上都取得了良好的剪枝效果，为超分网络在低性能平台上的部署提供了可能。

参考文献 (43)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于模块相似性的超分网络剪枝

doi: 10.12178/1001-0548.2021126

作者简介:
周仁爽(1996 − )，男，主要从事深度神经网络压缩方面的研究

通讯作者: 郭兵，E-mail：guobing@scu.edu.cn

Module Similarity-Based Pruning for Image Super-Resolution Network

计量

基于模块相似性的超分网络剪枝

doi: 10.12178/1001-0548.2021126

1. 四川大学计算机学院　成都　610065

2. 成都索贝数码科技股份有限公司　成都　610041

3. 成都信息工程大学计算机学院　成都　610225

4. 鹏城实验室　广东深圳　518055

作者简介:
周仁爽(1996 − )，男，主要从事深度神经网络压缩方面的研究

通讯作者: 郭兵，E-mail：guobing@scu.edu.cn

English Abstract

Module Similarity-Based Pruning for Image Super-Resolution Network

1. College of Computer Science, Sichuan University　Chengdu　610065

2. Chengdu Sobey Digital Technology Co., Ltd　Chengdu　610041

3. School of Computer Science, Chengdu University of Information Technology　Chengdu　610225

4. Peng Cheng Laboratory　Shenzhen Guangdong　518055

全文HTML

1.1. 基于深度学习的超分模型

1.2. 网络剪枝

1.3. 层剪枝

2.1. 模块重要性评估方法

2.2. 超分模块剪枝的步骤

2.2.1. 数学标号

2.2.2. 超分模块剪枝步骤

3.1. 实验配置

3.2. 实验结果与分析

3.2.1. 超分模块剪枝效果

3.2.2. 超分模型剪枝的性能提升

3.3. 消融实验

3.3.1. 超分模型剪枝的有效性验证

3.3.2. 模块间的相对独立性验证

3.3.3. 不同相似性计算方法对比

3.3.4. 与知识蒸馏的方法对比

目录

期刊在线

编辑办公

友情链接

留言板

基于模块相似性的超分网络剪枝

doi: 10.12178/1001-0548.2021126

作者简介: 周仁爽(1996 − )，男，主要从事深度神经网络压缩方面的研究

通讯作者: 郭兵，E-mail：guobing@scu.edu.cn

Module Similarity-Based Pruning for Image Super-Resolution Network

计量

出版历程

基于模块相似性的超分网络剪枝

doi: 10.12178/1001-0548.2021126

1. 四川大学计算机学院 成都 610065 2. 成都索贝数码科技股份有限公司 成都 610041 3. 成都信息工程大学计算机学院 成都 610225 4. 鹏城实验室 广东 深圳 518055

作者简介: 周仁爽(1996 − )，男，主要从事深度神经网络压缩方面的研究

通讯作者: 郭兵，E-mail：guobing@scu.edu.cn

English Abstract

Module Similarity-Based Pruning for Image Super-Resolution Network

1. College of Computer Science, Sichuan University Chengdu 610065 2. Chengdu Sobey Digital Technology Co., Ltd Chengdu 610041 3. School of Computer Science, Chengdu University of Information Technology Chengdu 610225 4. Peng Cheng Laboratory Shenzhen Guangdong 518055

全文HTML

1.1. 基于深度学习的超分模型

1.2. 网络剪枝

1.3. 层剪枝

2.1. 模块重要性评估方法

2.2. 超分模块剪枝的步骤

2.2.1. 数学标号

2.2.2. 超分模块剪枝步骤

3.1. 实验配置

3.2. 实验结果与分析

3.2.1. 超分模块剪枝效果

3.2.2. 超分模型剪枝的性能提升

3.3. 消融实验

3.3.1. 超分模型剪枝的有效性验证

3.3.2. 模块间的相对独立性验证

3.3.3. 不同相似性计算方法对比

3.3.4. 与知识蒸馏的方法对比

目录

期刊在线

编辑办公

友情链接

作者简介:
周仁爽(1996 − )，男，主要从事深度神经网络压缩方面的研究

1. 四川大学计算机学院　成都　610065

2. 成都索贝数码科技股份有限公司　成都　610041

3. 成都信息工程大学计算机学院　成都　610225

4. 鹏城实验室　广东深圳　518055

作者简介:
周仁爽(1996 − )，男，主要从事深度神经网络压缩方面的研究

1. College of Computer Science, Sichuan University　Chengdu　610065

2. Chengdu Sobey Digital Technology Co., Ltd　Chengdu　610041

3. School of Computer Science, Chengdu University of Information Technology　Chengdu　610225

4. Peng Cheng Laboratory　Shenzhen Guangdong　518055