面向低质量数据的3D人脸识别

龚勋; 周炀

doi:10.12178/1001-0548.2020321

面向低质量数据的3D人脸识别

doi: 10.12178/1001-0548.2020321

龚勋,
周炀^,

西南交通大学信息科学与技术学院　成都　611756

基金项目: 国家自然科学基金(61876158)；四川省重点研发项目(2019YFS0432)

详细信息

作者简介:
龚勋(1980-)，男，博士，副教授，主要从事模式识别与计算机视觉方面的研究

通讯作者: 周炀，E-mail：yzhou_01@my.swjtu.edu.cn

中图分类号: TP391.41

3D Face Recognition for Low Quality Data

GONG Xun,
ZHOU Yang^,

School of Information Science and Technology, Southwest Jiaotong University　Chengdu　611756

摘要: 该文提出了面向低质量数据的3D人脸识别方法。该方法针对快速采集设备的低质量3D人脸数据提出了空间注意力机制的Dropout(SAD)、类间正则化损失函数(IR Loss)，有效提升了不完整3D人脸数据的识别精度。SAD通过空间注意力机制对特征图中权重大的部分随机Dropout，让网络学习到更多的隐藏特征；IR Loss通过约束不同身份人脸间的聚类中心的距离分离，使网络学习到的不同身份人的人脸特征相似度更低。实验表明，在当前最大规模的低质量数据集(Lock3DFace)上，该方法优于当前的基准方法，且提出的SAD和IR Loss表现出了强大的适用性和鲁棒性。
- 3D人脸识别 /
- 损失函数 /
- 低质量3D人脸 /
- 空间注意力机制
Abstract: For the low-quality 3D face data collected by the fast collection device, we propose a face recognition method which consists of Spatial Attention-based Dropout (SAD) and Inter-class Regularization Loss function (IR Loss). This method effectively improves the recognition accuracy of incomplete 3D face data. SAD allows the network to learn more hidden features by randomly dropping out the important parts of the feature map based on the spatial attention mechanism. And IR Loss makes the feature similarity between faces with different identities lower by restricting the distance separation of the class centers between them. Experiments show that the method proposed in this paper is superior to the current benchmark methods on a largest low-precision dataset (Lock3DFace), and the SAD and IR Loss we proposed show strong applicability and robustness.
- 3D face recognition /
- loss function /
- low-quality 3D face /
- spatial attention

图 1 人脸点云数据处理流程

下载: 全尺寸图片幻灯片

图 2 本文方法整体流程图

下载: 全尺寸图片幻灯片

图 3 不同模型最后一层的卷积层的可视化

下载: 全尺寸图片幻灯片

图 4 使用不同损失函数的特征可视化

下载: 全尺寸图片幻灯片

图 5 遮挡比例k与平均识别率曲线

下载: 全尺寸图片幻灯片

图 6 本文方法在CurtinFaces数据集上的CMC曲线

下载: 全尺寸图片幻灯片

表 1 不同超参数设置对结果的影响 %

s	m	测试子集
s	m	正面	表情	姿态	遮挡	时间	平均
64	0.5	98.77	95.52	54.95	85.09	41.52	80.18
64	0.3	98.79	96.78	53.18	84.59	39.53	79.76
64	0.1	98.79	96.23	53.80	83.06	39.31	79.61
32	0.5	98.67	95.58	49.79	82.95	36.34	78.45
32	0.3	98.95	95.45	50.94	82.79	41.10	79.86
32	0.1	97.78	94.65	44.43	78.34	33.23	76.50

下载: 导出CSV

表 2 不同模块的识别准确率比较 %

方法	SAD	IR Loss	测试子集
方法	SAD	IR Loss	正面	表情	姿态	遮挡	时间	平均
1			94.53	92.18	33.65	67.00	23.09	70.62
2	√		95.78	92.00	35.26	71.66	26.41	72.47
3		√	95.15	93.04	47.14	76.81	33.13	74.14
4	√	√	99.03	95.98	52.19	82.13	40.68	79.89

下载: 导出CSV

表 3 CurtinFaces数据集的识别率比较 %

模型	测试子集
模型	光照	姿态	遮挡	平均
文献[35]	96.30	98.40	90.40	96.95
Led3D	86.53	75.04	82.69	80.45
本文	99.87	96.74	100.00	98.30

下载: 导出CSV

表 4 Lock3DFace数据集测试结果 %

模型	测试子集
模型	表情	遮挡	姿态	时间	平均
VGG-16	79.63	36.95	21.70	12.84	42.80
ResNet-34	62.83	20.32	22.56	5.07	32.23
Inception-V2	80.48	32.17	33.23	12.54	44.77
MobileNet-V2	85.38	32.77	28.30	10.60	44.92
Led3D[32]	86.94	48.01	37.63	26.12	54.28
本文	87.02	65.47	45.17	23.52	54.83

下载: 导出CSV

[1]	BOWYER K W, CHANG K, FLYNN P. A survey of approaches and challenges in 3D and multi-modal 3D + 2D face recognition[J]. Computer Vision and Image Understanding, 2006, 101(1): 1-15.
[2]	SCHROFF F, KALENICHENKO D, PHILBIN J. Facenet: A unified embedding for face recognition and clustering[C]//The IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 815-823.
[3]	HUANG G B, RAMESH M, BERG T, et al. Labeled faces in the wild: A database for studying face recognition in unconstrained environments[R]. Amherst: University of Massachusetts, 2007.
[4]	LIU Wei-yang, WEN Yan-dong, YU Zhi-ding, et al. SphereFace: Deep hypersphere embedding for face recognition[C]//The IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 212-220.
[5]	WANG H, WANG Y, ZHOU Z, et al. Cosface: Large margin cosine loss for deep face recognition[C]//The IEEE Conference on Computer Vision and Pattern Recognition. Utah: IEEE, 2018: 5265-5274.
[6]	DENG J, GUO J, XUE N, et al. Arcface: Additive angular margin loss for deep face recognition[C]//The IEEE Conference on Computer Vision and Pattern Recognition. California: IEEE, 2019: 4690-4699.
[7]	SUN Yi-fan, CHENG Chang-mao, ZHANG Yu-han et al. Circle loss: A unified perspective of pair similarity optimization[C]//The IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2020: 6398-6407.
[8]	MASI I, WU Y, HASSNER T, et al. Deep face recognition: A survey[C]//2018 31st SIBGRAPI Conference on Graphics, Patterns and Images. Parana: IEEE, 2018: 471-478.
[9]	BERRETTI S, BIMBO A D, PAL A. Superfaces: A super resolution model for 3d faces[C]//The European Conference on Computer Vision. Florence: Springer, 2012: 73-82.
[10]	GILANI S Z, MIANN A, EASTWOOD P. Deep dense and accurate 3D face correspondence for generating population specific deformable models[J]. Pattern Recognition, 2017, 69(1): 238-250.
[11]	GOSWAMI G, BHARADWAJ S, VATSA M, et al. On RGB-D face recognition using Kinect[C]//IEEE Sixth International Conference on Biometrics: Theory, Applications and Systems. Arlington: IEEE, 2013: 1-6.
[12]	赵青, 余元辉. 基于分层特征化网络的三维人脸识别[J]. 计算机应用, 2020, 40(9): 2514-2518. ZHAO Qing, YU Yuan-hui. 3D face recognition based on hierarchical feature network[J]. Computer Applications, 2020, 40(9): 2514-2518.
[13]	MIN R, KOSE N, DUGELAY J L. A Kinect database for face recognition[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2014, 44(11): 1534-1548.
[14]	SHLIZERMAN K, SEITZ S M, MILLER D, et al. The megaface benchmark: 1 million faces for recognition at scale[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 4873-4882.
[15]	AARON N, IRA K S. Level playing field for million scale face recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Hawaii: IEEE, 2017: 7044-7053.
[16]	PARKHI M, VEDALDI A, ZISSERMAN A, et al. Deep face recognition[C]//British Machine Vision Association. Swansea, UK: ORA, 2015: 1-12.
[17]	FALTEMIER T C, BOWYER K W, FLYNN P J. Using a multi-instance enrollment representation to improve 3D face recognition[C]//IEEE International Conference on Biometrics: Theory, Applications, and Systems. Crystal City, VA: IEEE, 2007: 1-6.
[18]	DRAN S A, ALYUZ N, DIBEKLIO H G, et al. Bosphorus database for 3D face analysis[C]//The First European Workshop on Biometrics and Identity Management. Denmark: Springer, 2008: 47-56.
[19]	GUO Y, ZHANG L, HU Y, et al. Ms-celeb-1m: A dataset and benchmark for large-scale face recognition[C]//The European Conference on Computer Vision. Amsterdam: Springer, 2016: 87-102.
[20]	YI D, LEI Z, LIAO S, et al. Learning face representation from scratch[EB/OL]. (2014-11-28). https://arxiv.org/abs/1411.7923.
[21]	GILANI S Z, MIAN A. Learning from millions of 3D scans for large-scale 3D face recognition[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City: IEEE, 2018: 1896-1905.
[22]	PHILIPS P J, FLYNN P, SCRUGGS T, et al. Overview of the face recognition grand challenge[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, CA, USA: IEEE, 2005: 947-954.
[23]	YIN L, WEI X. A 3D facial expression database for facial behavior research[C]//The 7th International Conference on Automatic Face and Gesture Recognition. Southampton: IEEE, 2006: 211-216.
[24]	WU D, ZHU F, SHAO L. One shot learning gesture recognition from RGB-D images[C]//2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. Providence: IEEE, 2012: 7-12.
[25]	HUYNH T, MIN R, DUGELAY J L. An efficient lbp-based descriptor for facial depth images applied to gender recognition using RGB-D face data[C]//Asian Conference on Computer Vision. [S.l.]: Springer, 2012: 133-145.
[26]	ZHANG Hao, HAN Hu, CUI Ji-yun, et al. RGB-D face recognition via deep complementary and common feature learning[C]//IEEE International Conference on Automatic Face & Gesture Recognition. Xi'an: IEEE, 2018: 8-15.
[27]	ZHANG J, HUANG D, WANG Y, et al. Lock3DFace: A large-scale database of low-cost kinect 3D faces[C]//2016 International Conference on Biometrics. Halmstad: IEEE, 2016: 1-8.
[28]	MU Guo-dong, HUANG Di, HU Guo-sheng, et al. Led3D: A lightweight and efficient deep approach to recognizing low-quality 3D faces[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. California: IEEE, 2019: 5773-5782.
[29]	SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. (2015-4-10). https://arxiv.org/abs/1409.1556.
[30]	HU Zheng-guo, GUI Peng-hui, FENG Zi-qing, et al. Boosting depth-based face recognition from a quality perspective[J]. Sensors, 2019, 19(19): 4124. doi: 10.3390/s19194124
[31]	BORGHI G, PINI S, GRAZIOLI F, et al. Face verification from depth using privileged information[C]//British Machine Vision Conference. Newcastle: ORA, 2018: 303-316.
[32]	CHOWDHURY A, GHOSH S, SINGH R, et al. RGB-D face recognition via learning-based reconstruction[C] //IEEE 8th International Conference on Biometrics Theory, Applications and Systems. Niagara Falls: IEEE, 2016: 1-7.
[33]	HU Zheng-guo, ZHAO Qi-jun, LIU Feng. Revisiting depth-based face recognition from a quality perspective [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. California: IEEE, 2019: 2354-2362.
[34]	WEN Yan-dong, ZHANG Kai-peng, LI Zhi-feng et al. A discriminative feature learning approach for deep face recognition[C]//European Conference on Computer Vision. Amsterdam: Springer, 2016: 499-515.
[35]	ZHANG Xiao, FANG Zhi-yuan, WEN Yan-dong, et al. Range loss for deep face recognition with long-tailed training data[C]//The IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 5409-5418.
[36]	LIU Wei-yang, WEN Yan-dong, YU Zhi-ding, et al. Large-margin softmax loss for convolutional neural networks[C]//The 33rd International Conference on Machine Learning. New York: IEEE, 2016: 507-516.
[37]	WANG Feng, LIU Wei-yang, LIU Hai-jun, et al. Additive margin softmax for face verification[J]. IEEE Signal Processing Letters, 2018, 25(7): 926-930.
[38]	SRIVASTAVA N, HINTON G K, ILYASUTSKEVER A, et al. Dropout: A simple way to prevent neural networks from overfitting[J]. The Journal of Machine Learning Research, 2014, 15(1): 1929-1958.
[39]	PARK S, KWAK N. Analysis on the dropout effect in convolutional neural networks[C]//Asian Conference on Computer Vision. Taiwan, China: Springer, 2016: 189-204.
[40]	TOMPSON J, GOROSHIN R, JAIN A, et al. Efficient object localization using convolutional networks[C]//The IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 648-656.
[41]	YANG X, HUANG D, WANG Y, et al. Automatic 3D facial expression recognition using geometric scattering representation[C]//2015 11th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition. Ljubljana: IEEE, 2015: 1-6.
[42]	SELVARAJU R R, COGSWELL M, DAS A, et al. Grad-CAM: Visual explanations from deep networks via gradient-based localization[C]//Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 618-626.
[43]	HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770-778.
[44]	LI B Y, MIAN A S, LIU W, et al. Using kinect for face recognition under varying poses, expressions, illumination and disguise[C]//2013 IEEE Workshop on Applications of Computer Vision. Tampa, FL: IEEE, 2013: 186-192.
[45]	IOFFE S, SZEGEDY C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[EB/OL]. (2015-2-11). https://arxiv.org/abs/1502.03167.
[46]	SANDLER M, HOWARD A, ZHU M, et al. MobileNetV2: Inverted residuals and linear bottlenecks[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 4510-4520.

[1]	陈欣, 李闯, 金凡. 量子自注意力神经网络的时间序列预测 . 电子科技大学学报, 2024, 53(1): 110-118. doi: 10.12178/1001-0548.2022340
[2]	崔少国, 独潇, 张宜浩. 基于兴趣注意力网络的会话推荐算法 . 电子科技大学学报, 2024, 53(1): 67-75. doi: 10.12178/1001-0548.2022307
[3]	王奇, 钱伟中, 雷航, 王旭鹏. 基于关键特征增强机制的3D人脸识别 . 电子科技大学学报, 2024, 53(2): 252-258. doi: 10.12178/1001-0548.2023012
[4]	陈永, 蒋丰源, 詹芝贤. 多尺度残差注意力的高速铁路OFDM信道估计 . 电子科技大学学报, 2023, 52(4): 512-522. doi: 10.12178/1001-0548.2022205
[5]	李阳, 李春璇, 徐灿飞, 方立梅. 基于残差注意力机制的肺结节数据增强方法 . 电子科技大学学报, 2023, 52(6): 880-886. doi: 10.12178/1001-0548.2022363
[6]	齐鹏文, 李渊, 李岩, 罗龙, 赵云龙. 基于注意力模型的输电线路隐患检测 . 电子科技大学学报, 2023, 52(2): 240-246. doi: 10.12178/1001-0548.2022063
[7]	郭磊, 王邱龙, 薛伟, 郭济. 基于注意力机制的光线昏暗条件下口罩佩戴检测 . 电子科技大学学报, 2022, 51(1): 123-129. doi: 10.12178/1001-0548.2021222
[8]	张凤荔, 王雪婷, 王瑞锦, 汤启友, 韩英军. 融合动态图表示和自注意力机制的级联预测模型 . 电子科技大学学报, 2022, 51(1): 83-90. doi: 10.12178/1001-0548.2021100
[9]	刘欣然, 徐雅斌. “类人”社交机器人检测数据集扩充方法研究 . 电子科技大学学报, 2022, 51(1): 130-137. doi: 10.12178/1001-0548.2021160
[10]	周书田, 颜信, 谢镇汕. 一种增强人脸识别模型训练稳定性的损失函数 . 电子科技大学学报, 2021, 50(1): 59-62. doi: 10.12178/1001-0548.2020226
[11]	李学明, 岳贡, 陈光伟. 基于多模态注意力机制的图像理解描述新方法 . 电子科技大学学报, 2020, 49(6): 867-874. doi: 10.12178/1001-0548.2019228
[12]	杜娟, 刘志刚, 宋考平, 杨二龙. 基于卷积神经网络的抽油机故障诊断 . 电子科技大学学报, 2020, 49(5): 751-757. doi: 10.12178/1001-0548.2019205
[13]	邓钰, 雷航, 李晓瑜, 林奕欧. 用于目标情感分类的多跳注意力深度模型 . 电子科技大学学报, 2019, 48(5): 759-766. doi: 10.3969/j.issn.1001-0548.2019.05.016
[14]	帕丽旦·木合塔尔, 买买提阿依甫, 杨文忠, 吾守尔·斯拉木. 基于BiRNN的维吾尔语情感韵律短语注意力模型 . 电子科技大学学报, 2019, 48(1): 88-95. doi: 10.3969/j.issn.1001-0548.2019.01.015
[15]	吴非, 于军胜. 基于狭缝光栅的一维集成成像双视3D显示 . 电子科技大学学报, 2018, 47(2): 317-320. doi: 10.3969/j.issn.1001-0548.2018.02.026
[16]	赵继东, 李晶晶, 鲁珂, 吴跃. 一种鲁棒的多态人脸识别算法 . 电子科技大学学报, 2015, 44(2): 278-282. doi: 10.3969/j.issn.1001-0548.2015.02.020
[17]	吴亚东, 蒋宏宇, 赵思蕊, 李波. 网络安全数据3D可视化方法 . 电子科技大学学报, 2015, 44(4): 594-598. doi: 10.3969/j.issn.1001-0548.2015.04.020
[18]	琚生根, 周激流, 何坤, 夏欣, 王刚. 频域光照归一化的人脸识别 . 电子科技大学学报, 2009, 38(6): 1021-1025. doi: 10.3969/j.issn.1001-0548.2009.06.027
[19]	蒲晓蓉, 郑自明, 周伟. 基于子空间投影的残缺人脸图像识别新算法 . 电子科技大学学报, 2006, 35(2): 208-210,220.
[20]	孙鑫, 刘本永. 基于局部本征谱的人脸识别 . 电子科技大学学报, 2005, 34(4): 493-496.

点击查看大图

图(6) / 表(4)

计量

文章访问数: 5810
HTML全文浏览量: 1684
PDF下载量: 120
被引次数: 0

全文HTML

人脸作为人类的内在属性，具有唯一性和确定性，因此人脸识别被视为一种非侵入性的生物特征^[1]正迅速成为身份识别和监控领域的主要工具之一。得益于互联网搜索技术的进步，2D人脸数据集可以方便地通过网络搜索技术获取，因此数据规模通常是百万级的。在海量数据的支持下，基于卷积神经网络(convolutional neural networks, CNN)的人脸识别算法在2D人脸识别上发挥了巨大的潜力。如FaceNet^[2]使用200万人脸数据来训练CNN，在LFW^[3]测试基准上达到99.63%的准确率，超过了人类的水平。由于2D人脸数据规模足够大，当前的2D人脸识别的研究^{[2, 4-7]}主要集中在设计更合理的损失函数，让不同身份间的人脸特征更加分离，相同身份间的人脸特征聚集更紧凑。尽管性能得到了较大提升，但2D人脸仅包含图像的纹理信息，仍不可避免地受到光照、姿态、表情等因素的干扰^[8]。

3D人脸除了包含基本的纹理信息，也包含人脸的深度信息，本质上可以不受光照变化的约束，能够克服2D人脸识别的不足。因此，关于3D人脸的识别越来越受到研究者的重视^[9-13]。3D人脸的数据采集不能像2D人脸数据^[14-16]一样通过网络搜索收集，只能通过特定的三维相机获取，经济及时间代价高，导致3D数据量非常有限。当前主要的高质量3D数据集ND-2006^[17]只包含888个人的13 450个模型，Bosphorus^[18]只包含105个人的4 666个模型。这与2D人脸数据集中的MS-Celeb-1M^[19]10万个人的1 000万张人脸图片，Casia-WebFace^[20]1万个人的47万张人脸图片相差甚远。由于数据规模小且质量较高，高质量3D人脸识别难度相对低质量人脸数据较低，3D高质量人脸识别方法^[21]在多个测试标准上如FRGCv2^[22]、Bosphorus^[18]和BU-3DFE^[23]上已经接近满分。但是，高质量3D人脸数据采集时间成本高、采集流程复杂、设备昂贵且需要对象配合，一定程度上限制了3D人脸识别技术的发展。

相对于高精度扫描仪，低精度设备(如Microsoft Kinect，Intel RealSense等)价格低廉、使用方便，具备更广阔的应用场景。与高质量3D人脸相比，低质量人脸图像表面有大量的毛刺、孔洞，识别难度更高，通常这类数据更多使用在姿态估计^[24]和行为识别^[25]等领域。虽在人脸识别^{[11, 16-18, 26]}上也存在一些尝试，但所涉及的数据规模有限，实用性不足。在大规模低质量3D人脸数据集Lock3dFace^[27]上当前最高的识别准确率Led3D^[28]只有54.28%。

基于以上分析，研究基于消费级相机采集的低质量3D人脸数据应用价值强，是3D人脸识别未来的发展趋势。针对这类数据，本文提出了SAD和IR Loss两种新方法，基于低质量的3D人脸的几何信息实现3D人脸识别。SAD和IR Loss可以作为两个独立的模块嵌入到CNN网络训练过程中。在推理阶段，这两个模块都不会参与运算，不会影响网络的运行效率。与当前Lock3DFace^[27]数据集准确率最高的测试模型Led3D相比，在不清理任何测试数据的情况下，本文方法准确率达54.83%，而在遮挡和姿态子集，本文方法的准确率分别有17.46%和7.54%的提升。

1. 相关工作

本节从高质量和低质量两方面简要介绍3D人脸识别方法、人脸识别损失函数及CNN中的Dropout方案的相关工作。

1) 高质量3D人脸识别。近年来，随着传感器技术的进步和高质量3D人脸模型数据库的推广，3D人脸识别技术得到了较大的发展。与2D人脸识别领域相比，基于3D人脸的深度学习方法的探索并不广泛，这主要是因为缺乏大规模公共3D数据库。基于深度学习的人脸识别技术对数据规模极度依赖，因此需要对人脸数据进行增强。文献[10]整合现有基准，通过生成表达式和姿势以及随机裁剪增加样本，生成10 K增强深度人脸，使用这些数据在2D人脸预训练模型VGG-Face^[29]网络上微调，在Bosphorus^[18]测试基准上取得当时最高的精度98.1%。文献[21]通过添加私有数据集和合成虚拟ID进一步增强数据，并从零开始训练深度模型，在多个3D人脸测试标准^[17-18]上都较高。高质量深度人脸因为缺乏大规模的统一测试数据集，测试结果基本接近满分。

2) 低质量3D人脸识别。对于低质量数据的3D人脸识别，研究比较有限。最先采用传统的特征提取方式，如ICP、PCA、LBP和HOG，并出现一些效果较好的方法^{[9, 11, 13, 30]}。但这些方法使用的数据库在主题或图像数量方面很小，所涉及的变化和数量也很少。文献[31]使用孪生神经网络进行RGB和深度图像的训练，用于面部验证任务。文献[32]在文献[11]的基础上，采用了一种称为基于学习的重建方法，使用自动编码器从RGB和深度图像中获取映射函数，并使用映射函数中重构的图像进行识别。文献[33]使用交叉质量数据验证，低质量3D人脸识别难度更大。文献[32]使用深度学习技术解决了特征融合问题，将RGB和深度两种模式提供的共同和互补信息有效融合。这些方法除了使用几何信息，还使用了RGB信息，但并不能完全克服2D人脸识别中光照、姿态等造成的影响，而本文只使用了几何信息。

3) 人脸识别中的损失函数。损失函数是深度学习的关键部分，是人脸识别方向的研究热点，在大规模数据上充分提取到训练数据的信息至关重要。人脸识别中的损失函数的主要目的是增大不同身份人脸特征向量的类间距离以及缩小相同身份人脸特征向量的类内距离，使用这一思路惩罚网络，使相同身份人脸的特征向量聚集在一起。早期的损失函数主要是基于欧式距离的损失，如triplet loss^[2]，它主要构建不同的正负样本对，利用欧氏距离来度量特征之间的相似性。后来在这些方法的基础上衍生出center loss^[34]和range loss^[35]，通过最小化类与类中心之间的欧式距离来训练整个模型。但是基于欧式空间的约束不足以实现最优泛化，所以在之后的工作中，研究者改进Softmax损失函数来增大人脸特征向量类间距离的同时减小类内距离，如L-Softmax^[36]，Am-Softmax^[37]。在最近的研究中增加margin的人脸识别损失能够增加模型学习的难度，所以将角度约束集成到Softmax损失函数中，SphereFace^[4]、CosFace^[5]、ArcFace^[6]都应用了这种思想。本文方法首次将2D人脸识别中的聚类中心的思想运用到3D人脸识别，并根据低质量3D数据存在噪声信息的特点，提出新的类间正则化损失函数。与ArcFace^[6]相比，本文方法除使用margin来降低人脸特征向量与类中心的相似度外，还对不同类别的类中心进行显示约束，让欧氏距离最近的不同类别的类中心相似度变低，避免了类中心相似度越高，不同身份人脸相似度越高的问题。

4) Dropout^[38]是一种用于缓解神经网络过拟合的正则化技术。具体来说，在训练阶段，对神经网络全连接层的每个隐藏节点随机置零，丢弃部分信息。这样网络在学习的过程中鲁棒性更高，达到良好的正则化效果。与全连接层不同的是，Dropout不能在卷积特征图上使用，因为空间相邻像素在卷积特征图上具有很强的相关性，它们共享冗余的上下文信息。因此，传统的基于像素的Dropout不能完全抛弃卷积特征图信息。为了在卷积层上应用Dropout，文献[39]提出了MaxDrop，即在特征图上通过通道或空间的方式去除最大激活的像素，这种方法能删除强激活的神经元，但也存在一定的局限性，因为卷积操作会共享周围的神经元信息，从而降低丢弃后的效果。文献[40]提出了Spatial Dropout，即随机丢弃特征图的部分通道，而不是丢弃每个像素。这种基于通道的丢失，可以解决像素丢失的问题。本文方法与Spatial Dropout的不同之处在于，本文只去除强激活区域，而不是整个通道区域。并且本文的方法只在最后一层的卷积层使用，不存在被共享特征的上下文信息。

5. 结束语

数据质量差、包含大量噪声是提取低质量3D人脸特征的难点。为了解决这些问题，本文提出了一个新的Dropout方法SAD和损失函数IR Loss。作为两个独立的模块，很容易嵌入到其他网络中，而不产生任何计算复杂性。可以有效地协同提取3D人脸特征，为模型特征表示提供了有力的工具。广泛的实验已经在两个最具有挑战性的低分辨率3D人脸数据集中给出，结果显示本文的方法优于其他先进的3D人脸识别方法。

但是本方法也存在一定的局限性，主要是在SAD和IR Loss单独使用时，相对于组合使用，对识别准确率提升不明显，需要结合使用。并且IR Loss存在两个超参数，其数值的设置只能根据经验给出，没有具体量化的计算公式。本文方法的本质是降低训练数据上的不确定性噪声信息对特征提取的干扰，在细粒度识别、行人重识别、分类等领域也可能发挥作用，在未来的工作中还需要进一步探索。

本文的研究工作得到了北京航空航天大学的支持，感谢其提供Lock3DFace^[30]数据集。此外，本文代码将在https://github.com/SWJTU-3DVision进行共享。

参考文献 (46)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

面向低质量数据的3D人脸识别

doi: 10.12178/1001-0548.2020321

作者简介:
龚勋(1980-)，男，博士，副教授，主要从事模式识别与计算机视觉方面的研究

通讯作者: 周炀，E-mail：yzhou_01@my.swjtu.edu.cn

3D Face Recognition for Low Quality Data

计量

面向低质量数据的3D人脸识别

doi: 10.12178/1001-0548.2020321

西南交通大学信息科学与技术学院　成都　611756

作者简介:
龚勋(1980-)，男，博士，副教授，主要从事模式识别与计算机视觉方面的研究

通讯作者: 周炀，E-mail：yzhou_01@my.swjtu.edu.cn

English Abstract

3D Face Recognition for Low Quality Data

School of Information Science and Technology, Southwest Jiaotong University　Chengdu　611756

全文HTML

2.1. 鼻尖校准

2.2. 人脸标准化

2.3. 数据增强

2.4. 深度人脸表示

3.1. 基于空间注意力的Dropout

3.2. 类间正则化损失函数

4.1. 数据集及测试方法

4.1.1. 数据集

4.1.2. 测试方法

4.2. 训练参数

4.3. 实验结果和分析

4.3.1. 参数讨论

4.3.2. 消融实验

4.3.3. CurtinFaces测试结果对比

4.3.4. Lock3DFace测试结果对比

目录

期刊在线

编辑办公

友情链接

留言板

面向低质量数据的3D人脸识别

doi: 10.12178/1001-0548.2020321

作者简介: 龚勋(1980-)，男，博士，副教授，主要从事模式识别与计算机视觉方面的研究

通讯作者: 周炀，E-mail：yzhou_01@my.swjtu.edu.cn

3D Face Recognition for Low Quality Data

计量

出版历程

面向低质量数据的3D人脸识别

doi: 10.12178/1001-0548.2020321

西南交通大学信息科学与技术学院 成都 611756

作者简介: 龚勋(1980-)，男，博士，副教授，主要从事模式识别与计算机视觉方面的研究

通讯作者: 周炀，E-mail：yzhou_01@my.swjtu.edu.cn

English Abstract

3D Face Recognition for Low Quality Data

School of Information Science and Technology, Southwest Jiaotong University Chengdu 611756

全文HTML

2.1. 鼻尖校准

2.2. 人脸标准化

2.3. 数据增强

2.4. 深度人脸表示

3.1. 基于空间注意力的Dropout

3.2. 类间正则化损失函数

4.1. 数据集及测试方法

4.1.1. 数据集

4.1.2. 测试方法

4.2. 训练参数

4.3. 实验结果和分析

4.3.1. 参数讨论

4.3.2. 消融实验

4.3.3. CurtinFaces测试结果对比

4.3.4. Lock3DFace测试结果对比

目录

期刊在线

编辑办公

友情链接

作者简介:
龚勋(1980-)，男，博士，副教授，主要从事模式识别与计算机视觉方面的研究

西南交通大学信息科学与技术学院　成都　611756

作者简介:
龚勋(1980-)，男，博士，副教授，主要从事模式识别与计算机视觉方面的研究

School of Information Science and Technology, Southwest Jiaotong University　Chengdu　611756