基于级联生成对抗网络的人脸图像修复

陈俊周; 王娟; 龚勋

doi:10.3969/j.issn.1001-0548.2019.06.016

基于级联生成对抗网络的人脸图像修复

doi: 10.3969/j.issn.1001-0548.2019.06.016

陈俊周¹,
王娟²,
龚勋^2, ,

1.
中山大学智能工程学院广州 510006
2.
西南交通大学信息科学与技术学院成都 611756

基金项目:

国家自然科学基金 61876158

四川省重点研发项目 19ZDYF2070

详细信息

作者简介:
陈俊周(1979-), 男, 博士, 副教授, 主要从事计算机视觉、机器学习、模式识别等方面的研究

通讯作者: 龚勋, E-mail:xgong@swjtu.edu.cn

中图分类号: TP391

Face Image Inpainting Using Cascaded Generative Adversarial Networks

1.
School of Intelligent Systems Engineering, Sun Yat-sen University Guangzhou 510006
2.
Information Science and Technology Academy, Southwest Jiaotong University Chengdu 611756

摘要: 人脸图像修复技术为近年来图像处理领域的研究热点。该文提出一种基于级联生成对抗网络的人脸图像修复方法，从生成器、判别器、损失函数三个方面进行改良。生成器采用由粗到精的级联式模型，并结合密集连接模块使所修复区域更加精细；判别器采用局部与全局特征相融合的双重判别式模型以提升判别准确性；损失函数采用最小化重构损失和对抗网络损失相结合以获得更好训练效果。基于CelebA数据集的实验显示，该方法可实现面部区域丢失50%以上的人脸图像修复，在客观评价指标PSNR和SSIM上，较现有方法分别提高了1.1~7.5 dB和0.02~0.15。从主观效果来看，该方法修复的人脸图像拥有更丰富的细节、更显自然。
- 卷积神经网络 /
- 人脸图像修复 /
- 生成对抗网络 /
- 生成模型 /
- 无监督学习
Abstract: Face image inpainting is a hot topic of image processing research in recent years. This paper proposes a face image restoration method based on cascade generative adversarial network. In this method, the generator employs a cascading structure consisting of a coarse network and a refinement network and adopts dense connections to recover more details of the missing face area; the discriminator uses a dual discriminant model combining local and global features to improve the discriminant accuracy; the loss function consists of reconstruction loss and generative adversarial loss for better training performance. Experiments on CelebA dataset show that the proposed method can restore facial image with more than 50% missing area. The objective evaluation index PSNR and SSIM are 1.1 dB to 7.5 dB and 0.02 to 0.15 higher respectively compared with state of the arts. For subjective evaluation, the restored face images look more detailed and natural.
- convolutional neural network /
- face image inpainting /
- generative adversarial network /
- generative model /
- unsupervised learning

图 1 生成器模型结构

下载: 全尺寸图片幻灯片

图 2 判别器网络结构

下载: 全尺寸图片幻灯片

图 3 眉毛、眼睛等部位被遮挡的修复图像

下载: 全尺寸图片幻灯片

图 4 眉毛、眼睛、鼻子等被遮挡的修复图像

下载: 全尺寸图片幻灯片

图 5 眉毛眼睛鼻子遮挡图不同深度学习方法修复效果比较

下载: 全尺寸图片幻灯片

图 6 全脸遮挡图不同深度学习方法修复效果比较

下载: 全尺寸图片幻灯片

图 7 文献[19]与本文的修复细节对比

下载: 全尺寸图片幻灯片

表 1 峰值信噪比

方法	PSNR/dB
方法	M1	M2	M3	M4
文献[23]	25.26	24.45	22.35	20.16
文献[19]	29.52	26.47	23.68	22.71
文献[18]	30.93	28.76	24.93	25.54
本文	32.03	29.97	26.69	27.69

下载: 导出CSV

表 2 结构相似度

方法	SSIM
方法	M1	M2	M3	M4
文献[23]	0.88	0.86	0.81	0.70
文献[19]	0.90	0.89	0.83	0.73
文献[18]	0.92	0.91	0.86	0.82
本文	0.95	0.93	0.89	0.85

下载: 导出CSV

[1]	何雨亭, 唐向宏, 张越, 等.结构张量的改进Criminisi修复[J].中国图象图形学报, 2018(10):64-79. http://d.old.wanfangdata.com.cn/Periodical/zgtxtxxb-a201810005 HE Yu-ting, TANG Xiang-hong, ZHANG Yue, et al. Improved Criminisi algorithm based on structure tensor[J]. Journal of Image and Graphics, 2018(10):64-79. http://d.old.wanfangdata.com.cn/Periodical/zgtxtxxb-a201810005
[2]	兰小丽, 刘洪星, 姚寒冰.基于纹理块与梯度特征的图像修复改进算法[J].计算机工程与应用, 2018(20):177-182. http://d.old.wanfangdata.com.cn/Periodical/jsjgcyyy201820028 LAN Xiao-li, LIU Hong-xing, YAO Han-bing. Improved image inpainting algorithm based on texture blocks and gradient feature[J]. Computer Engineering and Applications, 2018(20):177-182. http://d.old.wanfangdata.com.cn/Periodical/jsjgcyyy201820028
[3]	胡彬, 邱淑芳, 杨志辉, 等.一种新的4阶偏微分方程图像处理方法[J].江西师范大学学报(自然科学版), 2016(6):603-607. http://d.old.wanfangdata.com.cn/Periodical/jxsfdxxb201606013 HU Bin, QIU Shu-fang, YANG Zhi-hui, et al. The image denoising by fourth-order partial differential equations[J]. Journal of Jiangxi Normal University (Natural Science Edition), 2016(6):603-607. http://d.old.wanfangdata.com.cn/Periodical/jxsfdxxb201606013
[4]	杜闪闪, 韩超.基于腐蚀处理和多参数因子的CDD修复算法[J].激光与光电子学进展, 2019(16):106-114. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jgygdzxjz201916013 DU Shan-shan, HAN Chao. CDD repair algorithm based on corrosion treatment and multi-parameter factors[J]. Laser & Optoelectronics Progress, 2019(16):106-114. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jgygdzxjz201916013
[5]	张弘, 周晓莉.基于小波阈值和全变分模型的图像去噪[J].计算机应用研究, 2018(10):182-185. ZHANG Hong, ZHOU Xiao-li. Method for image denoising based on wavelet transform and total variatioal model[J]. Application Research of Computers, 2018(10):182-185.
[6]	谢斌, 丁成军, 刘壮.基于图像分解的图像修复算法[J].激光与红外, 2018(5):117-124. http://d.old.wanfangdata.com.cn/Periodical/jgyhw201805021 XIE Bin, DING Cheng-jun, LIU Zhuang. Image restoration algorithm based on image decomposition[J]. Laser & Infrared, 2018(5):117-124. http://d.old.wanfangdata.com.cn/Periodical/jgyhw201805021
[7]	孙利君.基于样本的纹理合成方法研究[D].济南: 山东大学, 2012. SUN Li-jun. Research on texture synthesis method based on samples[D]. Jinan: Shandong University, 2012.
[8]	HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[EB/OL]. (2015-03-14). https://arxiv.org/abs/1512.03385.
[9]	ZITNICK C, DOLLAR P. Edge boxes: Locating object proposals from edges[C]//Computer Vision-ECCV 2014.[S.l.]: Springer, 2014: 86-93.
[10]	OUYANG W, LUO P, ZENG X, et al. Deep ID-Net: Multi-stage and deformable deep convolutional neural networks for object detection[EB/OL]. (2014-05-18). https://arxiv.org/abs/1409.3505v1.
[11]	QUOC V Le. Building high-level features using large scale unsupervised learning[C]//Acoustics, Speech and Signal Processing (ICASSP). Vancouver, Canada: IEEE, 2013: 8595-8598.
[12]	PATHAK D, KRAHENBUHL P, DONAHUE J, et al. Context encoders: Feature learning by inpainting[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016: 2536-2544.
[13]	LI Y, LIU S, YANG J, et al. Generative face completion[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017: 3911-3919.
[14]	GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[J]. Advances in Neural Information Processing Systems, 2014(4): 2672-2680.
[15]	HUANG Gao, LIU Zhuang, LAUREN S. Densely connected convolutional networks[EB/OL]. (2018-08-24). https://arxiv.org/abs/1608.06993.
[16]	RADFORD A, METZ L, CHINTALA S. Unsupervised representation learning with deep convolutional generative adversarial networks[EB/OL]. (2015-10-14). https://arxiv.org/abs/1511.06434.
[17]	ARJOVSKY M, CHINTALA S, BOTTOU L. Wasserstein gan[EB/OL]. (2017-10-24). https://arxiv.org/abs/1701.07875.
[18]	GULRAJANI I, AHMED F, ARJOVSKY M, et al. Improved training of wasserstein gans[EB/OL]. (2017-12-24). https://arxiv.org/abs/1704.00028v3.
[19]	JIAHUI Y, ZHE L, JIMEI Y, et al. Generative image inpainting with contextual attention[C]//IEEE Conference Computer Vision and Pattern Recognition.[S.l.]: IEEE, 2018: 5505-5514.
[20]	DUMOULIN V, VISIN F. A guide to convolution arithmetic for deep learning[EB/OL]. (2016-08-24). https://arxiv.org/abs/1603.07285.
[21]	IIZUKA S, SIMO-SERRA E, ISHIKAWA H. Globally and locally consistent image completion[J]. ACM Transactions on Graphics (TOG), 2017, 36(4):1-14.
[22]	LIU Z, LUO P, WANG X, et al. Deep learning face attributes in the wild[EB/OL]. (2014-11-28). https://arxiv.org/abs/1411.7766.
[23]	KARRAS T, AILA T, LAINE S, et al. Progressive growing of gans for improved quality, stability, and variation[EB/OL]. (2017-07-05). https://arxiv.org/abs/1710.10196.
[24]	赵文哲, 秦世引.图像质量评价的研究进展和若干问题的解决途径[J].激光与光电子学进展, 2010, 47(4):46-54. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jgygdzxjz201004009 ZHAO Wen-zhe, QIN Shi-yin. Image quality assessment and some solve approaches to current issues[J]. Laser & Optoelectronics Progress, 2010, 47(4):46-54. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jgygdzxjz201004009

[1]	张柏林, 姬港, 朱宇轩, 许向楠, 唐万斌. 基于深度学习的半监督信号调制样式识别算法 . 电子科技大学学报, 2024, 53(): 1-8. doi: 10.12178/1001-0548.2022252
[2]	伍凌川, 史慧芳, 邱枫, 石义官. 基于近似存在性查询的高效图像异常检测方法 . 电子科技大学学报, 2024, 53(): 1-8. doi: 10.12178/1001-0548.2024032
[3]	王永, 王淞立, 邓江洲. 基于生成对抗网络的评分可信推荐模型 . 电子科技大学学报, 2024, 53(2): 1-8. doi: 10.12178/1001-0548.2023116
[4]	刘勇国, 高攀, 兰荻, 朱嘉静. ECA-SKNet：玉米单倍体种子的卷积神经网络识别模型 . 电子科技大学学报, 2023, 52(6): 866-871. doi: 10.12178/1001-0548.2022361
[5]	陈丽, 许思扬, 刘芳, 冯奇, 刘承享, 徐福琛, 田淼, 刘光辉. 基于生成对抗网络的OFDM信号生成 . 电子科技大学学报, 2023, 52(6): 841-850. doi: 10.12178/1001-0548.2022253
[6]	周丰丰, 牛甲昱. 细胞穿膜肽识别问题的多特征融合卷积网络预测算法 . 电子科技大学学报, 2022, 51(4): 494-499. doi: 10.12178/1001-0548.2021391
[7]	吴子锐, 杨之蒙, 蒲晓蓉, 徐杰, 曹晟, 任亚洲. 面向特征生成的无监督域适应算法 . 电子科技大学学报, 2022, 51(4): 580-585, 607. doi: 10.12178/1001-0548.2021314
[8]	周书田, 颜信, 谢镇汕. 一种增强人脸识别模型训练稳定性的损失函数 . 电子科技大学学报, 2021, 50(1): 59-62. doi: 10.12178/1001-0548.2020226
[9]	周书田, 颜信, 谢镇汕. 视频人脸识别中高效分解卷积与时间金字塔网络研究 . 电子科技大学学报, 2021, 50(2): 231-235. doi: 10.12178/1001-0548.2020319
[10]	赵学功, 邓佳坤, 魏浩然, 彭真明. 基于卷积神经网络的眼底图像微血管瘤检测方法 . 电子科技大学学报, 2021, 50(6): 915-920. doi: 10.12178/1001-0548.2021186
[11]	李响, 严毅, 刘明辉, 刘明. 基于多条件对抗和梯度优化的生成对抗网络 . 电子科技大学学报, 2021, 50(5): 754-760. doi: 10.12178/1001-0548.2020415
[12]	杜娟, 刘志刚, 宋考平, 杨二龙. 基于卷积神经网络的抽油机故障诊断 . 电子科技大学学报, 2020, 49(5): 751-757. doi: 10.12178/1001-0548.2019205
[13]	李润东, 李立忠, 李少谦, 宋熙煜, 何鹏. 基于稀疏滤波神经网络的智能调制识别 . 电子科技大学学报, 2019, 48(2): 161-167. doi: 10.3969/j.issn.1001-0548.2019.02.001
[14]	田文洪, 曾柯铭, 莫中勤, 吝博强. 基于卷积神经网络的驾驶员不安全行为识别 . 电子科技大学学报, 2019, 48(3): 381-387. doi: 10.3969/j.issn.1001-0548.2019.03.012
[15]	何磊, 李玉霞, 彭博, 吴焕萍. 基于生成对抗网络的无人机图像道路提取 . 电子科技大学学报, 2019, 48(4): 580-585. doi: 10.3969/j.issn.1001-0548.2019.04.016
[16]	郭继昌, 李翔鹏. 基于卷积神经网络和密度分布特征的人数统计方法 . 电子科技大学学报, 2018, 47(6): 806-813. doi: 10.3969/j.issn.1001-0548.2018.06.002
[17]	唐贤伦, 刘庆, 张娜, 周家林. 混合PSO优化卷积神经网络结构和参数 . 电子科技大学学报, 2018, 47(2): 230-234. doi: 10.3969/j.issn.1001-0548.2018.02.011
[18]	陈俊周, 汪子杰, 陈洪瀚, 左林翼. 基于级联卷积神经网络的视频动态烟雾检测 . 电子科技大学学报, 2016, 45(6): 992-996. doi: 10.3969/j.issn.1001-0548.2016.06.020
[19]	秦志光, 陈浩, 丁熠, 蓝天, 陈圆, 沈广宇. 基于多模态卷积神经网络的脑血管提取方法研究 . 电子科技大学学报, 2016, 45(4): 573-581. doi: 10.3969/j.issn.1001-0548.2016.04.010
[20]	傅彦, 周俊临. 基于无监督学习的盲信号源分离技术研究 . 电子科技大学学报, 2004, 33(1): 63-66.

点击查看大图

图(7) / 表(2)

计量

文章访问数: 5026
HTML全文浏览量: 1574
PDF下载量: 72
被引次数: 0

全文HTML

传统图像修复技术大致可分为基于结构的图像修复算法^[1]和基于纹理的图像修复算法^[2]。其中，基于结构的图像修复技术通过信息扩散原理对图像进行修复，相关算法包括高阶偏微分方程模型算法^[3]、快速图像修复算法^[4]、全变分模型^[5]等，此类算法主要适用于小尺度区域的图像修复。基于纹理的修复算法通过仿真生成局部纹理信息进行填充修复，主要有基于图像分解的修复算法^[6]和基于样块的纹理合成算法^[7]两大类，该方法也只适合小区域的语义缺失块修复。随着互联网数据的海量扩增和计算机计算能力的高效提升，深度学习获得了极大的关注与发展，并广泛应用于图像分类^[8]、图像检测识别^[9]、图像定位^[10]及图像语义分割^[11]等领域。

基于深度学习的图像修复算法相较于传统的修复算法能够学习更稳定、更高层的特征。如文献[12]通过训练编码-解码器模型结构并结合对抗损失函数来预测图像的缺失区域，该模型能够得到合理的图像结构并能准确评价修复指标；文献[13]提出的深度生成模型，不仅学习合成图像的背景信息，更对图像缺失区域的语义信息进行了完善。

然而，目前存在的基于深度学习的人脸图像修复算法大多都停留在监督学习或半监督学习的基础上，对人脸图像修复来说还存在许多的限制性因素。如文献[12-13]提出的修复方法中，对于鼻子、眼睛等小部件的生成效果还存在与整体的不一致性。2014年文献[14]提出的生成对抗网络为无监督学习领域提供了新的思路，取得了开创性的进展。但是，生成对抗网络也依然存在许多弊端，如数据训练过程不稳定、图像生成效果自由不可控、训练过程易崩溃等问题。为解决以上问题，本文提出了基于一种无监督学习生成对抗网络的人脸图像修复算法，主要贡献包括：

1) 网络结构：采用从粗糙到精细的级联生成式模型和局部与全局相结合的双层判别式模型。并在网络结构中加入了密集块^[15]，加强了特征的传递，使训练过程更加稳定，生成图像更加逼近原始图像。

2) 损失函数：使用最小化重构损失和生成对抗网络损失相结合的损失函数。使得生成图像通过对抗过程不断优化完善，最终获得与原图相似的结果。

3) 评价指标：采用主观与客观相结合的评价方式。主观上设置4种缺失类型并对这4种缺失图像的修复结果进行视觉上的分析；客观上采用峰值信噪比和结构相似性图像评价指标进行对比分析。

1. 相关研究

深度学习的学习方式分为监督学习、半监督学习及无监督学习。监督学习和半监督学习方式都需要带标签的样本进行训练，获取标签数据的过程不仅成本高而且相当耗时。无监督学习方式则不需要大量的带标签数据，可直接对输入的无标签数据通过聚类等方式进行建模，并且无监督学习可以从每次的错误中进行学习，以免下次犯同样的错误。但无监督学习存在难以训练，训练结果不准确等问题。

生成对抗网络(generative adversarial network, GAN)为无监督学习领域带来了里程碑式的进展。GAN的结构设计启发于博弈论中的“二人零和博弈”问题^[14]，模型中的博弈双方分别为生成模型(generative model, G)和判别模型(discriminator model, D)。其中，生成模型用于捕获真实数据样本的潜在分布并生成新的样本，判别模型则是一个二分类器，用于判别该样本为真实图像或者生成器生成图像的概率。博弈的结果的理想情况为，生成模型可以生成能够以假乱真的图片，判别模型难以判别图像来源于生成数据还是真实数据。

GAN的目标函数为：

$$\begin{gathered} \mathop {\min }\limits_G \mathop {\max }\limits_D f(D, G){\rm{ = }}{{\rm{E}}_{{\mathit{\pmb{x}}} \sim {P_{{\rm{data}}}}(\mathit{\pmb{x}})}}[\log D(\mathit{\pmb{{\mathit{\pmb{x}}}}})] + \\ {{\rm{E}}_{{\mathit{\pmb{z}}} \sim {P_{\mathit{\pmb{z}}}}(\mathit{\pmb{x}})}}[\log (1 - D(G({\mathit{\pmb{z}}})))] \\ \end{gathered} $$

(1)

式中，x表示从真实数据分布${P_{{\rm{data}}}}(\mathit{\pmb{x}})$中的采样值；z为随机噪声向量，从先验分布${P_z}(\mathit{\pmb{x}})$中采样；E表示期望值。首先，给定生成器G，求解最优判别器D即最小化交叉熵过程，则判别器的损失函数为：

$$\begin{gathered} {\rm{Ob}}{{\rm{j}}^D}({{\mathit{\pmb{\theta}}} _D}, {{\mathit{\pmb{\theta}}} _G}) = - \frac{1}{2}{{\rm{E}}_{{\mathit{\pmb{x}}} \sim {P_{{\rm{data}}}}({\mathit{\pmb{x}}})}}[\log D(\mathit{\pmb{x}})] - \\ \frac{1}{2}{{\rm{E}}_{{\mathit{\pmb{z}}} \sim {P_{\mathit{\pmb{z}}}}(\mathit{\pmb{x}})}}[\log (1 - D(g({\mathit{\pmb{z}}})))] \\ \end{gathered} $$

(2)

从式(2)可看出，判别器的训练数据集包含真实数据集分布${P_{{\rm{data}}}}({\mathit{\pmb{x}}})$和生成器G的数据分布P_g(x)。给定生成器G，最小化式(2)，获得判别器最优解，在连续空间为：

$$ \begin{gathered} {\rm{Ob}}{{\rm{j}}^D}({{\mathit{\pmb{\theta}}} _D}, {{\mathit{\pmb{\theta}}} _G}) = - \frac{1}{2}\int\limits_{\mathit{\pmb{x}}} {{P_{{\rm{data}}}}({\mathit{\pmb{x}}})} \log (D({\mathit{\pmb{x}}})){\rm{d}}{{\mathit{\pmb{x}}}} - \\ \frac{1}{2}\int\limits_{\mathit{\pmb{z}}} {{P_z}({\mathit{\pmb{x}}})\log (1 - D(G(\mathit{\pmb{z}}))){\rm{d}}{\mathit{\pmb{z}}} - } \\ \frac{1}{2}\int\limits_{\mathit{\pmb{x}}} {[{P_{{\rm{data}}}}({\mathit{\pmb{x}}})\log (D({\mathit{\pmb{x}}})) + } {P_g}({\mathit{\pmb{x}}})\log (1 - D({\mathit{\pmb{x}}}))]{\rm{d}}{\mathit{\pmb{x}}} \\ \end{gathered} $$

(3)

上式中，${P_{{\rm{data}}}}({\mathit{\pmb{x}}})$与${P_g}({\mathit{\pmb{x}}})$为常数，分别设为$m$、$n$，$D({\mathit{\pmb{x}}})$设为y，则式(3)可表示为：

$${\rm{Ob}}{{\rm{j}}^D}({{\mathit{\pmb{\theta}}} _D}, {{\mathit{\pmb{\theta}}} _G}) = - m\log (y) - n\log (1 - y)$$

(4)

由式(4)可知，在$\frac{m}{{m + n}}$处获得最小值，则在给定生成器G的情况下，判别器的最优解为：

$$D_G^* = \frac{{{P_{{\rm{data}}}}({\mathit{\pmb{x}}})}}{{{P_{{\rm{data}}}}({\mathit{\pmb{x}}}) + {P_g}({\mathit{\pmb{x}}})}}$$

(5)

在生成对抗网络的训练过程中，首先需要训练判别器D最大化数据来源于真实数据集的概率，同时需要训练生成器模型G最小化$\log (1 - D(G(\mathit{\pmb{z}})))$。因此通过交替迭代更新的方法，即先固定生成器G，优化判别器D，使判别器D的判别准确率最大化；然后固定判别器D，优化生成器G，使得判别器D的判别准确率最小化。当且仅当${P_{\mathit{\pmb{z}}}} = {P_{{\rm{data}}}}$时，达到全局最优解。

生成对抗网络发展至今，也出现了许多优秀的衍生模型。如深度卷积生成对抗网络^[16]，首次将生成对抗网络GAN和卷积神经网络CNN进行了很好的结合，展示出深度卷积神经网络在无监督学习领域的巨大潜力，但随着模型训练时间的增长，也会出现训练不稳定的情况，因此本文会在该基础上进行进一步的网络结构改进；在GAN中最先引入Wasserstein距离来度量两个分布之间的距离的WGAN^[17]和其改进版本WGAN-GP^[18]，让生成对抗网络的理论提升到了一个新的高度，有效缓解了GAN容易出现梯度消失、模型崩溃的情况。本文在后面的损失函数设计阶段将继续沿用WGAN-GP的优秀思想；加入上下文感知模块的生成对抗网络(contextual attention, GAN)^[19]，其网络结构中包括一个带上下文内容感知的前馈生成器网络。并将网络的训练过程分为两个阶段，第一阶段通过初步修复图像的缺失区域，得到一个比较模糊的修复结果；第二个阶段是内容感知层的训练，即使用已知图像斑块的特征作为卷积核来加工生成出来的斑块，从而精细化模糊的修复结果。本文通过使用带内容感知的模型，很好的对图像进行了修复，具有重要的研究意义，但在细节处理上还需要进行改进。

3. 损失函数

设计好网络模型后，需要一个好的损失函数来优化整个模型。为了网络的训练更稳定和生成图像效果更好，本文的损失函数由生成网络部分的重构损失和判别网络部分的对抗损失两部分组成。其中重构损失采用L₁范数：

$$ {l_{{\rm{rec}}}}({{\mathit{\pmb{x}}}_0}, {\mathit{\pmb{x}}}) = {\left\| {F({{\mathit{\pmb{x}}}_0} - {\mathit{\pmb{x}}})} \right\|_1} $$

(6)

通过L₁范数让生成图像更加逼近真实图像。

对抗损失函数采用文献[18]提出的WGAN-GP损失，该损失是目前生成对网络中较好的损失函数，一定程度上缓解了原始GAN训练不稳定、梯度消失等问题。WGAN-GP损失是文献[17]提出的WGAN损失的改进版本。WGAN引入了Wasserstein距离来测量两个分布之间的距离，其定义如下：

$$ W({P_r}, {P_g}) = {\inf _{r \sim \prod {({P_r}, {P_g})} }}{{\rm{E}}_{({\mathit{\pmb{x}}}, {\mathit{\pmb{y}}}) \sim r}}\left\lfloor {||{\mathit{\pmb{x}}} - {\mathit{\pmb{y}}}||} \right\rfloor $$

(7)

式中，$\prod {({P_r}, {P_g})} $表示${P_r}$与${P_g}$的联合分布。对于其中任意一个可能的联合分布r进行采样)x, y)~r，得到真实样本x与生成样本y的距离为||x-y||。可以计算出该联合分布下样本对距离的期望值并取得下界。Wasserstein距离相比KL散度和JS散度具有优越的平滑特性。

WGAN虽然能够很好地算出两个分布之间的距离，但由于其权值剪切的操作，可能会引起梯度消失或爆炸。WGAN-GP通过加入梯度惩罚来处理这个问题，得到最终的WGAN-GP对抗损失函数：

$$ \begin{gathered} {l_{{\rm{adv}}}} = {{\rm{E}}_{x \sim {P_g}}}[D(\tilde {\mathit{\pmb{x}}})] - {{\rm{E}}_{{\mathit{\pmb{x}}} \sim {P_r}}}[D({\mathit{\pmb{x}}})] + \\ \lambda {{\rm{E}}_{\tilde {\mathit{\pmb{x}}} \sim P\tilde {\mathit{\pmb{x}}}}}[{(||{\nabla _{\tilde {\mathit{\pmb{x}}}}}D(\tilde {\mathit{\pmb{x}}})|{|^2} - 1)^2}] \\ \end{gathered} $$

(8)

式中，超参数λ控制惩罚项所占的比重，在实验中设为10。通过对抗损失函数进行对抗训练使得生成器的生成图像更加真实。将生成器的重构损失和判别器的对抗损失联合起来，得到本文的损失函数为：

$$ {l_{{\rm{loss}}}} = \alpha {l_{{\rm{rec}}}} + \beta {l_{{\rm{adv}}}} $$

(9)

式中，α, β分别表示两种损失函数所占的权重系数，通过参照文献[8, 21]等超参数配置及不断的实验调试，本文实验中设置α-0.035，β-0.965，然后通过Adam梯度优化算法不断促使网络模型更新参数，优化模型。

5. 结束语

本文针对人脸图像缺失区域的修复问题，提出一种新的基于级联无监督生成对抗网络的人脸图像修复方法。其中生成网络采用了从粗糙网络到精细网络两个部分，判别网络采用了局部判别与全局判别的双重判别方式，损失函数采用重构损失和对抗损失相结合的方式。从而使得本文的生成对抗网络对图像的结构性预测更加准确，对图像的细节化处理也更加完美。通过与各种基于GAN的深度学习算法在相同的人脸数据测试集上实验结果进行对比，本文的修复结果在主观视觉上的效果更好，在客观的峰值信噪比和结构相似性指标上也得到了提升，因此本文人脸修复模型算法较现有方法具有更好的修复效果。

本文基于无监督学习生成对抗网络的人脸修复算法在人脸图像上取得了一定的效果，但是修复对象较为单一，修复模型不具有通用型。因此，在未来的模型训练中，将尝试加入多种类、多样式的训练数据，提高模型的泛化性能。同时，在实验过程中加入随机生成的不规则遮挡区域，提高模型的实际应用能力。

参考文献 (24)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于级联生成对抗网络的人脸图像修复

doi: 10.3969/j.issn.1001-0548.2019.06.016

作者简介:
陈俊周(1979-), 男, 博士, 副教授, 主要从事计算机视觉、机器学习、模式识别等方面的研究

通讯作者: 龚勋, E-mail:xgong@swjtu.edu.cn

Face Image Inpainting Using Cascaded Generative Adversarial Networks

计量

基于级联生成对抗网络的人脸图像修复

doi: 10.3969/j.issn.1001-0548.2019.06.016

1. 中山大学智能工程学院广州 510006

2. 西南交通大学信息科学与技术学院成都 611756

作者简介:
陈俊周(1979-), 男, 博士, 副教授, 主要从事计算机视觉、机器学习、模式识别等方面的研究

通讯作者: 龚勋, E-mail:xgong@swjtu.edu.cn

English Abstract

Face Image Inpainting Using Cascaded Generative Adversarial Networks

1. School of Intelligent Systems Engineering, Sun Yat-sen University Guangzhou 510006

2. Information Science and Technology Academy, Southwest Jiaotong University Chengdu 611756

全文HTML

2.1. 生成器模型

2.2. 判别器模型

4.1. 不同遮挡区域的修复效果展示

4.2. 不同深度学习方法修复效果主观视觉比较

4.3. 不同深度学习方法修复效果客观指标分析

目录

期刊在线

编辑办公

友情链接

留言板

基于级联生成对抗网络的人脸图像修复

doi: 10.3969/j.issn.1001-0548.2019.06.016

作者简介: 陈俊周(1979-), 男, 博士, 副教授, 主要从事计算机视觉、机器学习、模式识别等方面的研究

通讯作者: 龚勋, E-mail:xgong@swjtu.edu.cn

Face Image Inpainting Using Cascaded Generative Adversarial Networks

计量

出版历程

基于级联生成对抗网络的人脸图像修复

doi: 10.3969/j.issn.1001-0548.2019.06.016

1. 中山大学智能工程学院 广州 510006 2. 西南交通大学信息科学与技术学院 成都 611756

作者简介: 陈俊周(1979-), 男, 博士, 副教授, 主要从事计算机视觉、机器学习、模式识别等方面的研究

通讯作者: 龚勋, E-mail:xgong@swjtu.edu.cn

English Abstract

Face Image Inpainting Using Cascaded Generative Adversarial Networks

1. School of Intelligent Systems Engineering, Sun Yat-sen University Guangzhou 510006 2. Information Science and Technology Academy, Southwest Jiaotong University Chengdu 611756

全文HTML

2.1. 生成器模型

2.2. 判别器模型

4.1. 不同遮挡区域的修复效果展示

4.2. 不同深度学习方法修复效果主观视觉比较

4.3. 不同深度学习方法修复效果客观指标分析

目录

期刊在线

编辑办公

友情链接

作者简介:
陈俊周(1979-), 男, 博士, 副教授, 主要从事计算机视觉、机器学习、模式识别等方面的研究

1. 中山大学智能工程学院广州 510006

2. 西南交通大学信息科学与技术学院成都 611756

作者简介:
陈俊周(1979-), 男, 博士, 副教授, 主要从事计算机视觉、机器学习、模式识别等方面的研究

1. School of Intelligent Systems Engineering, Sun Yat-sen University Guangzhou 510006

2. Information Science and Technology Academy, Southwest Jiaotong University Chengdu 611756