融合特征编码的面部表情编辑技术

刘韵婷; 靳佳晖; 陈亮; 张景异

doi:10.12178/1001-0548.2020373

融合特征编码的面部表情编辑技术

doi: 10.12178/1001-0548.2020373

沈阳理工大学自动化与电气工程学院　沈阳　110159

基金项目: 国家重点研发计划(2017YFC0821001，2017YFC0821004)

详细信息

作者简介:
刘韵婷(1983-)，女，副教授，博士，主要从事深度学习、数据分析及无线传感器网络等方面的研究

通讯作者: 靳佳晖，E-mail：1169705748@qq.com

中图分类号: TP3

Facial Expression Editing Technology with Fused Feature Coding

School of Automation and Electrical Engineering, Shenyang Ligong University　Shenyang　110159

摘要: 为解决当前连续面部表情生成模型易在表情密集区域产生伪影、表情控制能力较弱等问题，该文对GANimation模型进行了研究改进，提高对表情肌肉运动单元AU控制的准确度。在生成器的编码和解码特征层之间引入多尺度特征融合(MFF)模块，以长跳跃连接的方式将得到的融合特征用于图像解码。在生成器的解码部分中加入一层逆卷积，便于MFF模块添加，更加高效合理。在自制的数据集上与原网络进行对比实验，表情合成的准确度和生成的图像质量分别提高了1.28和2.52，验证了该算法在生成图像没有模糊和伪影存在的情况下，面部表情编辑能力得到加强。
- 连续面部表情生成 /
- 逆卷积 /
- GANimation改进 /
- 多尺度特征融合
Abstract: In order to solve the problems that the current continuous facial expression generation model is easy to produce artifacts in the expression-intensive areas and the expression control ability is weak, the GANimation model is improved for increasing the accuracy of the AU control of the expression muscle motor unit. A multi dimension feature fusion (MFF) module is introduced between the encoding and decoding feature layers of the generator, and the obtained fusion features are used for image decoding in a long-hop connection. A layer of inverse convolution is added to the decoding part of the generator to facilitate the addition of the MFF module to be more efficient and reasonable. Comparing experiments with the original network on the self-made data set, the accuracy of expression synthesis and the quality of the generated images of the improved model have been increased by 1.28 and 2.52 respectively, which verifies that the improved algorithm has better performance in facial expression editing when the image is not blurred and artifacts exist.
- continuous facial expression generation /
- deconvolution /
- Ganimation improvement /
- multi-scale feature fusion
图 1 表情对应的脸部肌肉区域

下载: 全尺寸图片幻灯片

图 2 改进后连续表情生成模型结构

下载: 全尺寸图片幻灯片

图 3 多尺度特征融合模块的输入输出

下载: 全尺寸图片幻灯片

图 4 多尺度特征融合模块MFF

下载: 全尺寸图片幻灯片

图 5 生成器网络结构

下载: 全尺寸图片幻灯片

图 6 数据集各AU占比

下载: 全尺寸图片幻灯片

图 7 通过判别器的表情向量损失

下载: 全尺寸图片幻灯片

图 8 表情AU强度的${\rm{ PCC}}$

下载: 全尺寸图片幻灯片

图 9 表情编辑对比

下载: 全尺寸图片幻灯片

图 10 表情向量控制能力对比

下载: 全尺寸图片幻灯片

图 11 表情插值效果图

下载: 全尺寸图片幻灯片

表 1 训练参数

衰减率
$(\beta 1)$ 衰减率
$(\beta 2)$ 训练
$({\rm{epoch} })$ 学习率 20～30 $({\rm{epochs} } )$
学习率 ${\rm{batchsize}}$

0.5 0.999 30 1×10⁻⁴ 线性衰减到1×10⁻⁵ 25

下载: 导出CSV

表 2 与最先进的算法定量比较

算法 ${\rm{PSNR}} \uparrow$ ${\rm{FID}} \downarrow$

StarGAN 20.15 61.29
GANimation 22.89 46.43
本文 24.17 43.91

下载: 导出CSV

[1]	ZHANG Y, BADLER N I. Synthesis of 3D faces using region-based morphing under intuitive control[J]. Computer Animation & Virtual Worlds, 2006, 17(3-4): 421-432.
[2]	FU T, FOROOSH H. Expression morphing from distant viewpoints[C]//2004 International Conference on Image Processing. [S.l.]: IEEE, 2004: 3519-3522.
[3]	LITWINOWICZ P, WILLIAMS L. Animating images with drawings[C]//Proceedings of the 21st Annual Conference on Computer Graphics and Interactive Techniques. [S.l.]: ACM, 1994: 409-412.
[4]	GAO W. Synthesis of facial behavior for virtual human[J]. Chinese Journal of Computers, 1998, 21: 694-703.
[5]	陈俊周, 王娟, 龚勋. 基于级联生成对抗网络的人脸图像修复[J]. 电子科技大学学报, 2019, 48(6): 910-917. CHEN J Z, WANG J, GONG X. Face image inpainting using cascaded generative adversarial networks[J]. Journal of University of Electronic Science and Technology of China, 2019, 48(6): 910-917.
[6]	何磊, 李玉霞, 彭博, 等. 基于生成对抗网络的无人机图像道路提取[J]. 电子科技大学学报, 2019, 48(4): 580-585. doi: 10.3969/j.issn.1001-0548.2019.04.016 HE L, LI Y X, PENG B, et al. Road extraction with UAV images based on generative adversarial networks[J]. Journal of University of Electronic Science and Technology of China, 2019, 48(4): 580-585. doi: 10.3969/j.issn.1001-0548.2019.04.016
[7]	ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proceedings of the IEEE International Conference on Computer Vision. [S.l.]: IEEE, 2017: 2223-2232.
[8]	HE Z, ZUO W, KAN M, et al. AttGAN: Facial attribute editing by only changing what you want[J]. IEEE Transactions on Image Processing, 2019(99): 1.
[9]	CHEN Y C, SHEN X, LIN Z, et al. Semantic component decomposition for face attribute manipulation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2019: 9859-9867.
[10]	PERARNAU G, van de WEIJER J, RADUCANU B, et al. Invertible conditional gans for image editing[EB/OL]. [2020-02-23]. https://arxiv.org/pdf/1611.06355v1.
[11]	CHOI Y, CHOI M, KIM M, et al. Stargan: Unified generative adversarial networks for multi-domain image-to-image translation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. San Diego: IEEE, 2018: 8789-8797.
[12]	LIN T Y, DOLLAR P, GIRSHICK R B, et al. Feature pyramid networks for object detection[C]//Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 936-944.
[13]	SHEN Y, GU J, TANG X, et al. Interpreting the latent space of gans for semantic face editing[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. San Diego: IEEE, 2020: 9243-9252.
[14]	WU R, ZHANG G, LU S, et al. Cascade ef-gan: Progressive facial expression editing with local focuses[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. San Diego: IEEE, 2020: 5021-5030.
[15]	CHEN L C, PAPANDREOU C, KOKKINOS I, et al. Deep lab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834-848. doi: 10.1109/TPAMI.2017.2699184
[16]	CHEN L C, ZHU Y, PAPANDREOU C, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//European Conference on Computer Vision. Munich: ECCV, 2018: 833-851.
[17]	PUMAROLA A, AGUDO A, MARTINEZ A M, et al. Ganimation: Anatomically-aware facial animation from a single image[C]//Proceedings of the European Conference on Computer Vision. Munich: ECCV, 2018: 818-833.
[18]	EKMAN P, FRIESEN W. Facial action coding system: A technique for the measurement of facial movement[M]. Palo Alto: Consulting Psychologists Press, 1978.
[19]	DU S, TAO Y, MARTINEZ A M. Compound facial expressions of emotion[J]. Proceedings of the National Academy of Sciences, 2014, 111(15): E1454-E1462. doi: 10.1073/pnas.1322355111
[20]	LING J, XUE H, SONG L, et al. Toward Fine-grained facial expression manipulation[C]//European Conference on Computer Vision. Berlin: Springer, 2020: 37-53.
[21]	LIU Z, LUO P, WANG X, et al. Deep learning face attributes in the wild[C]//Proceedings of the IEEE International Conference on Computer Vision. San Diego: IEEE, 2015: 3730-3738.
[22]	BALTRUSAITIS T, ZADEH A, LIM Y C, et al. Openface 2.0: Facial behavior analysis toolkit[C]//2018 13th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2018). [S. l. ]: IEEE, 2018: 59-66.
[23]	CHEN L C, YANG Y, WANG J, et al. Attention to scale: Scale-aware semantic image segmentation[C]//Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 3640-3649.
[24]	HUYNH-THU Q, GHANBARI M. Scope of validity of PSNR in image/video quality assessment[J]. Electronics Letters, 2008, 44(13): 800-801. doi: 10.1049/el:20080522
[25]	HEUSEL M, RAMSAUER H, UNTERTHINER T, et al. Gans trained by a two time-scale update rule converge to a local nash equilibrium[C]//3lst Conference on Neural Information Processing Systems. Long Beach, CA:[s.n.], 2017: 6626-6637.

[1]	崔少国, 张乐迁, 文浩. GCFF-Net：一种面向视网膜血管精细分割的多层级图卷积特征融合神经编解码网络 . 电子科技大学学报, 2024, 53(): 1-11. doi: 10.12178/1001-0548.2023131
[2]	张婷婷, 杨红雨, 林毅. 融合表示学习的中医面部穴位检测框架 . 电子科技大学学报, 2023, 52(2): 175-181. doi: 10.12178/1001-0548.2022392
[3]	吴子锐, 杨之蒙, 蒲晓蓉, 徐杰, 曹晟, 任亚洲. 面向特征生成的无监督域适应算法 . 电子科技大学学报, 2022, 51(4): 580-585, 607. doi: 10.12178/1001-0548.2021314
[4]	黄娜, 何泾沙, 吴亚飈. 恶意PDF检测中的特征工程研究与改进 . 电子科技大学学报, 2022, 51(5): 766-773. doi: 10.12178/1001-0548.2021403
[5]	周宁, 张嵩霖, 张晨. 融合粗糙数据推理的多策略改进麻雀搜索算法 . 电子科技大学学报, 2022, 51(5): 743-753. doi: 10.12178/1001-0548.2021288
[6]	王军. 基于多尺度特征预测的异常事件检测 . 电子科技大学学报, 2022, 51(4): 586-591. doi: 10.12178/1001-0548.2021333
[7]	周丰丰, 牛甲昱. 细胞穿膜肽识别问题的多特征融合卷积网络预测算法 . 电子科技大学学报, 2022, 51(4): 494-499. doi: 10.12178/1001-0548.2021391
[8]	谭露露, 张鑫鑫, 周银座. 多特性融合图卷积方法的分子生物活性预测 . 电子科技大学学报, 2021, 50(6): 921-929. doi: 10.12178/1001-0548.2021158
[9]	艾斯卡尔·艾木都拉, 武文成. 基于多尺度局部梯度的点目标检测技术 . 电子科技大学学报, 2019, 48(6): 893-903. doi: 10.3969/j.issn.1001-0548.2019.06.014
[10]	周雪, 陈科鑫, 冯媛媛, 邹见效. 基于超像素的多特征融合的水平集轮廓跟踪 . 电子科技大学学报, 2018, 47(5): 745-752. doi: 10.3969/j.issn.1001-0548.2018.05.017
[11]	郭继昌, 李翔鹏. 基于卷积神经网络和密度分布特征的人数统计方法 . 电子科技大学学报, 2018, 47(6): 806-813. doi: 10.3969/j.issn.1001-0548.2018.06.002
[12]	张良, 李玉, 刘婷婷, 郝凯锋. 融合小波和LBP-GD特征的人脸表情识别 . 电子科技大学学报, 2018, 47(5): 654-659. doi: 10.3969/j.issn.1001-0548.2018.05.003
[13]	李彦冬, 雷航, 郝宗波, 唐雪飞. 基于多尺度显著区域特征学习的场景识别 . 电子科技大学学报, 2017, 46(3): 600-605. doi: 10.3969/j.issn.1001-0548.2017.03.020
[14]	秦志光, 陈浩, 丁熠, 蓝天, 陈圆, 沈广宇. 基于多模态卷积神经网络的脑血管提取方法研究 . 电子科技大学学报, 2016, 45(4): 573-581. doi: 10.3969/j.issn.1001-0548.2016.04.010
[15]	王灿, 秦志光, 杨磊, 杨皓. 基于改进Sparse Indexing的多负载消冗方法 . 电子科技大学学报, 2013, 42(5): 734-739. doi: 10.3969/j.issn.1001-0548.2013.05.017
[16]	林雪原. GPS/SINS组合导航系统的多尺度融合算法研究 . 电子科技大学学报, 2011, 40(5): 686-690. doi: 10.3969/j.issn.1001-0548.2011.05.010
[17]	谭丽娟, 陈运. 模逆算法的分析、改进及测试 . 电子科技大学学报, 2004, 33(4): 383-386,394.
[18]	王广彬, 黄廷祝. 逆H矩阵的性质 . 电子科技大学学报, 2001, 30(2): 192-194.
[19]	王勇, 陈光. 面向时滞测试生成的改进遗传算法 . 电子科技大学学报, 1999, 28(2): 157-161.
[20]	王光泰, 周先敏, 徐继麟. 多传感器信息最优融合 . 电子科技大学学报, 1997, 26(5): 465-467.

点击查看大图

图(11) / 表(2)

计量

文章访问数: 4597
HTML全文浏览量: 1599
PDF下载量: 104
被引次数: 0

全文HTML

人脸表情生成技术是人工智能研究领域的热点之一，由于不同人种之间脸部轮廓和不同年龄段人群皮肤纹理存在差异等问题，给生成真实感的人脸表情任务带来很大的挑战。面部角度、光线、复杂的背景环境都会给生成效果带来影响。

传统的表情生成方法有多种，表情渐变技术使用几何或参数插值方式在同一个人两幅不同表情之间进行控制面部表情^[1-2]，插值的帧间形变函数根据表情任务的复杂度确定，线性插值由于简单而被广泛使用。然而，在实际应用中，通常会存在不同人之间表情转换的需求，表情映射法可实现任意人物不同表情的合成，一般的表情映射需要两个人物的中性表情，获取同一个人的中性表情和目标表情的特征差值作用到特定的中性人脸表情上^[3]，该方法仅解决了新表情的生成，忽略了表情转化引起皮肤的纹理变化，使生成的图像缺少真实感。二维网格法综合考虑了这两个方面，头部的几何信息抽象出由三角形组成的网格结构，并用参数化模型表示，改变表情肌肉群对应的三角顶点位置参数合成新的表情。同时，为了完成皮肤细节的变化，对改变后的图像像素进行重新分配^[4]。

随着计算机硬件条件的提高，使用大规模参数运算的深度学习变为流行，2014年文献[5-6]提出了生成对抗网络(generative adversarial networks, GAN)，使生成对抗网络在深度学习领域掀起了热潮，图像域间的转换、脸部外观改变等高质量图像的生成技术出现。与只考虑特定外观修饰的面部属性编辑相比，面部表情编辑是一项更具挑战性的任务，因为它通常涉及较大的几何变化，需要同时修改多个面部成分。

目前生成离散的面部表情模型居多，这些网络基本可完成面部属性变化的任务^[7-9]。IcGAN利用两个Encoder网络分别对输入图像提取头部基本特征向量和属性特征^[10]，将头部属性特征向量对应位置的特征值进行0-1转换，使其转换为目标向量。再与基本特征向量串联输入到生成网络IcGAN。在生成离散表情领域里，StarGAN是最成功的框架，可生成多属性的高清人脸图像。该网络把表情作为其中一个目标属性域，使用单个生成器学习多领域图像之间映射关系^[11]。由于StarGAN在属性标签的基础上完成图像生成，生成的目标表情受数据集表情标签限制，在数据集注释粒度定义的离散属性中改变面部一个特定的部分，在表情方面只能渲染离散的情绪类别。

在实际的应用中，希望模型可合成任意表情，然而表情幅度可控的高质量图像生成研究较少^[12-14]，ExprGAN是第一个基于GAN模型且将允许连续地控制表情强度，该模型能够分离地学习身份特征和表情表示，但每种表情仅允许5个固定强度变化^[15]。G2-GAN使用面部几何(基准点)作为可控制条件来指导具有特定表情的面部纹理合成，一对生成性对抗性子网络被联合训练做相反的任务：表情移除和表情合成。成对的网络在无表情人脸和表情人脸之间之间形成一个映射循环，能很好地捕捉表情变化引起的面部纹理的变化，合成不同强度的表情^[16]。GANimation算法能够在一个连续的区域内生成具有解剖学意义的更广泛的表情，无需预先计算输入图像中面部标志点的位置^[17]，通过编码脸部肌肉运动单元AU(action unit)，调节脸部某些区域肌肉运动强度，从而实现复杂的面部表情合成。但是，该模型容易在表情密集区域产生伪影和模糊，提取的特征还原不到位，表情操控能力相对较弱，存在生成图像达不到目标表情要求的问题。

为了解决这些问题，对GANimation生成器的网络结构进行改进，在生成器的Decoder中加入一层上采样，保持数据维度一致，且在生成器的Encoder和Decoder特征层之间以长跳跃连接的方式引入4个多尺度特征融合模块(multi dimension feature fusion, MFF)，每个模块融合来自当前层的编码特征和添加在下一层融合模块的融合特征，提高图像质量和表情编辑性能。

4. 结束语

本文提出了对GANimation方法的改进，将多尺度融合机制纳入基于Encoder-Decoder的任意面部表情编辑体系结构中。特征融合模块在很大程度上提高了模型性能，特别是对于动作单元的保持、质量重建和身份保持。作为一种简单有竞争力的方法，与改进前的GANimation方法相比，在视觉质量和操纵能力都取得了更好的实验结果。

参考文献 (25)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

融合特征编码的面部表情编辑技术

doi: 10.12178/1001-0548.2020373

作者简介:
刘韵婷(1983-)，女，副教授，博士，主要从事深度学习、数据分析及无线传感器网络等方面的研究

通讯作者: 靳佳晖，E-mail：1169705748@qq.com

Facial Expression Editing Technology with Fused Feature Coding

计量

融合特征编码的面部表情编辑技术

doi: 10.12178/1001-0548.2020373

沈阳理工大学自动化与电气工程学院　沈阳　110159

作者简介:
刘韵婷(1983-)，女，副教授，博士，主要从事深度学习、数据分析及无线传感器网络等方面的研究

通讯作者: 靳佳晖，E-mail：1169705748@qq.com

English Abstract

Facial Expression Editing Technology with Fused Feature Coding

School of Automation and Electrical Engineering, Shenyang Ligong University　Shenyang　110159

全文HTML

1.1. 多尺度特征融合模块

1.2. 数据维度一致

1.3. 生成器总网络结构

1.4. 判别器

3.1. 实验数据

3.2. 网络训练

3.3. 实验结果

3.3.1. 训练过程

3.3.2. 表情生成质量评估

3.3.3. 表情编辑对比

3.3.4. 表情向量控制能力对比

3.3.5. 连续表情生成

目录

期刊在线

编辑办公

友情链接

衰减率 $(\beta 1)$	衰减率 $(\beta 2)$	训练 $({\rm{epoch} })$	学习率	20～30 $({\rm{epochs} } )$ 学习率	${\rm{batchsize}}$
0.5	0.999	30	1×10⁻⁴	线性衰减到1×10⁻⁵	25

算法	${\rm{PSNR}} \uparrow$	${\rm{FID}} \downarrow$
StarGAN	20.15	61.29
GANimation	22.89	46.43
本文	24.17	43.91

留言板

融合特征编码的面部表情编辑技术

doi: 10.12178/1001-0548.2020373

作者简介: 刘韵婷(1983-)，女，副教授，博士，主要从事深度学习、数据分析及无线传感器网络等方面的研究

通讯作者: 靳佳晖，E-mail：1169705748@qq.com

Facial Expression Editing Technology with Fused Feature Coding

计量

出版历程

融合特征编码的面部表情编辑技术

doi: 10.12178/1001-0548.2020373

沈阳理工大学自动化与电气工程学院 沈阳 110159

作者简介: 刘韵婷(1983-)，女，副教授，博士，主要从事深度学习、数据分析及无线传感器网络等方面的研究

通讯作者: 靳佳晖，E-mail：1169705748@qq.com

English Abstract

Facial Expression Editing Technology with Fused Feature Coding

School of Automation and Electrical Engineering, Shenyang Ligong University Shenyang 110159

全文HTML

1.1. 多尺度特征融合模块

1.2. 数据维度一致

1.3. 生成器总网络结构

1.4. 判别器

3.1. 实验数据

3.2. 网络训练

3.3. 实验结果

3.3.1. 训练过程

3.3.2. 表情生成质量评估

3.3.3. 表情编辑对比

3.3.4. 表情向量控制能力对比

3.3.5. 连续表情生成

目录

期刊在线

编辑办公

友情链接

作者简介:
刘韵婷(1983-)，女，副教授，博士，主要从事深度学习、数据分析及无线传感器网络等方面的研究

沈阳理工大学自动化与电气工程学院　沈阳　110159

作者简介:
刘韵婷(1983-)，女，副教授，博士，主要从事深度学习、数据分析及无线传感器网络等方面的研究

School of Automation and Electrical Engineering, Shenyang Ligong University　Shenyang　110159