-
穴位是中医学的核心和基础,穴位疗法[1]是中医治疗的重要组成部分。临床实践中,穴位疗法的治疗功效高度依赖医师的技能水平和经验。然而,培养合格的医师需要很高的成本,不仅需要专业的医学知识,更需要长期的临床实践。因此,为了提供临床辅助诊疗手段并降低医师的培养成本,开展穴位疗法智能化研究具有很强的现实意义。
穴位疗法的基础是找到需要待刺激穴位的准确位置。因此,精准智能穴位检测是穴位疗法智能化研究需要解决的首要问题。临床医学上,常用的取穴方法可分为体表解剖标志法、骨度分寸法和同身寸法[2-3],上述3种方法都是从视觉层面进行穴位定位。基于此,运用基于图像的计算机视觉技术实现智能穴位识别和定位是可行的穴位疗法智能化系统技术路线。根据中医理论,穴位是皮肤表面大小不定的区域,临床诊疗证实刺激穴位中心点能取得更好的治疗效果。因此,本文将穴位检测定义为关键点检测任务,包括穴位类别识别和穴位定位。
近年来,研究学者提出了多种智能穴位检测方法[4-7]。然而,现有方法存在依赖红外等外部设备、特征表示挖掘不足、穴位检测精度较低等问题。针对上述问题,本文提出了基于深度神经网络的面部穴位检测模型FADbR(facial acupoint detection by reconstruction),充分利用深度学习的非线性建模能力,深度挖掘面部隐性知识,提升模型的人脸特征提取能力。同时,本文构建了一个稠密的人脸穴位数据集FAcupoint用于训练复杂场景的面部穴位检测模型,提高模型在真实场景下的可用性。
与现有智能穴位检测方法相比,本文方法能够利用深度挖掘的面部特征实现端到端人脸穴位检测,且不需要依赖红外等特殊的外部设备。此外,得益于重建任务的深度特征表示挖掘,本文提出的检测方法可在少量标注样本情况下达到良好的面部稠密穴位检测效果,能够有效降低基于神经网络模型的面部穴位识别方法对标注数据的依赖。
-
如图1所示,本文提出的面部穴位检测模型框架FADbR骨干为自编码网络结构,包括编码器(encoder)和生成器(generator)。生成器模块中间设计了特征共享传输层(interleaved layer)支撑穴位检测。
该方法包含人脸图像重建和面部穴位检测两阶段模型训练过程。
1)人脸图像重建:第一阶段通过自监督学习机制重建人脸图像,获取人脸的低维高阶特征表示。编码器将输入人脸图像压缩成稠密高阶表征(latent features),生成器通过该特征表示重构输入图像。由于模型的输入和输出均为无标注数据,这一训练过程也称为自监督学习。
2)面部穴位检测:第二阶段基于人脸图像重建阶段的自编码网络模型结构,在生成器模块中间设计特征共享传输层提取深度面部特征,预测穴位热力图,包括穴位类别和坐标。模型能够充分利用人脸图像重建阶段提取到的抽象人脸特征辅助完成人脸穴位精准识别和定位,能够在较少标注样本数据的情况下获得更好性能。
-
本文自编码网络结构中编码器网络
$E$ 采用标准的ResNet-18[18]结构,生成器网络$G$ 采用逆ResNet-18结构。给定一张输入图像$x$ ,经编码器网络$E$ 处理生成特征向量${\boldsymbol{z}} \in {\mathbb{R}^d}$ 。生成器$ G({\boldsymbol{z}}) $ 将特征向量${\boldsymbol{z}}$ 投影回图像空间$x' = G(E(x))$ 。鉴别器$D$ 采用DCGAN网络[19]区分生成人脸图像$x'$ 是否足够接近原始人脸图像$x$ 。自监督人脸重建过程中,通过4个损失函数训练以保证人脸图像的重建效果,具体如下。1)基于像素的图像重建损失
$L_{\text{rec}}$ :$$ L_{\text{rec}}(E,G) = {\rm{E}}_{x \sim p(x)}[||x - G(E(x))|{|}_1] $$ (1) 2)保证编码生成隐性空间平滑和连续性的对抗特征损失
$L_{\text{enc}}$ :$$ \begin{split} & L_{\text{enc}}(E,D_{\boldsymbol{z}}) = {\rm{E}}_{{\boldsymbol{z}}^* \sim p({\boldsymbol{z}})}[\lg D_z({\boldsymbol{z}}*)] + \\ & \qquad {\rm{E}}_{x \sim p(x)}[\lg (1 - {D_{\boldsymbol{z}}}(E(x)))] \end{split} $$ (2) 3)为了避免图片模糊,使得编码器
$E$ 和生成器$G$ 生成高仿真度重建结果的对抗图像损失$L_{\text{adv}}$ :$$ \begin{split} & L_{\text{adv}}(E,G,D_x) = {\rm{E}}_{x \sim p(x)}[\lg D_x(x)] + \\ &\qquad {\rm{E}}_{x \sim p(x)}[\lg (1 - D_x(G(E(x))))] \end{split} $$ (3) 4)基于SSIM[20]的图像结构损失
$L_{\text{cs}}$ :$$ \begin{split} & L_{\text{cs}}(E,G) = {\rm{E}}_{x \sim p(x)}[{\rm{cs}}(x,G(E(x)))] \\ & {\rm{cs}}(x,y) = \frac{1}{{\left| w \right|}}\sum\limits_w {c({x_w},{y_w})s({x_w},{y_w})} \\ & \qquad c(a,b) = \frac{{2{\sigma _a}{\sigma _b} + c}}{{\sigma _a^2 + \sigma _b^2 + c}} \\ & \qquad s(a,b) = \frac{{{\sigma _{ab}} + c/2}}{{{\sigma _a}{\sigma _b} + c/2}} \end{split} $$ (4) 式中,
$a$ 和$b$ 代表两个图像窗口;$c(a,b)$ 用于衡量两个窗口的差异程度;$s(a,b)$ 用于衡量两个窗口的相关程度。最终,自编码器的损失函数定义如下:
$$ \begin{split} & \mathop {\min }\limits_{E,G} \mathop {\max }\limits_{{D_{\boldsymbol{z}}},{D_x}} L_{\text{AE}}(E,G,D_{\boldsymbol{z}},D_x) = \\ & \lambda _{\text{rec}}L_{\text{rec}}(E,G) + \lambda _{\text{enc}}L_{\text{enc}}(E,{D_{\boldsymbol{z}}}) + \\ & \lambda _{\text{adv}}L_{\text{adv}}(E,G,{D_x}) + \lambda _{\text{cs}}L_{\text{cs}}(E,G) \end{split} $$ (5) 式中,
$ \lambda _{\text{rec}} $ 、$ \lambda _{\text{enc}} $ 、$ \lambda _{\text{adv}} $ 、$ \lambda _{\text{cs}} $ 分别为$L_{\text{rec}}$ 、$L_{\text{enc}}$ 、$L_{\text{adv}}$ 、$L_{\text{cs}}$ 的权重。 -
穴位检测阶段,网络利用提取的人脸隐性知识辅助生成热力图。首先冻结自编码器参数,在逆ResNet层中插入卷积层提取生成器每一层关键特征,且设置输出通道与原始逆ResNet层的数量相同,最后一层卷积则映射为43个不同通道的热力图。热力图预测损失函数定义为:
$$ L_H = {\rm{E}}_{x \sim p(x)}[||H - {\rm{FSL}}(a_1)||_2] $$ (6) 式中,
$x$ 为给定的标注人脸图像;$H$ 为热力图的真实值。在面部穴位检测训练和预测过程中,第一个逆ResNet层经过激活函数之后生成$a_1$ ,然后传给第一个新增卷积层进行特征共享传输${\rm{FSL}}$ 运算。基于模型输出的热力图,穴位坐标计算公式为:$$ {\tilde l_i} = \mathop {\arg \max }\limits_{u,v} H'(u,v) $$ (7) 式中,
$H'$ 为预测的人脸穴位热力图;$ {\tilde l_i}$ 为第$i$ 个人脸穴位的预测坐标;$u$ 和$v$ 分别为预测的人脸热力图的横坐标和纵坐标。 -
本文的数据集包含如下两类。1)人脸图像重建任务数据集:采用VGGFace2[21]和AffectNet[22]两个数据集进行自编码网络模型训练。2)穴位检测任务数据集:采用自建的FAcupoint数据集。本文选择人脸数据库CAS-PEAL-R1[23]作为原始图像进行面部穴位标注,包括穴位的类别及坐标。为了保证穴位标注精度,特邀请成都中医药大学5名拥有10年以上从业经验的针灸专家对数据进行标注、自查及互相核对,并将所有专家的标注数据取平均,最终得到FAcupoint人脸穴位数据集。FAcupoint数据集共包含654张正面人脸图片,其中男性图片326张,女性图片328张,每张图片均标注了面部额头以下的43个穴位点。
图2所示为FAcupoint数据样本的可视化结果。第一行和第三行为原始图像,第二行和第四行为对应的数据标注可视化结果图,绿色点代表标注穴位的位置。
为测试FADbR的穴位检测性能,本文将FAcupoint数据集按照男女性别划分训练集和测试集,具体如下:1)从男性图片中随机挑选299张图片作为训练数据,剩下27张作为测试数据;2)从女性图片中随机挑选301张图片作为训练数据,剩下27张作为测试数据;因此,本文穴位检测模型训练样本共600张图片,测试样本共54张图片。
-
自编码模型训练epoch为50次,输入输出图片大小为128 Pixel×128 Pixel,batch-size为100个。模型收敛之后,编码器和解码器都增加额外的一个残差层再次训练来提高人脸重建效果。epoch为50次,图片尺寸为256 Pixel×256 Pixel,batch-size为50个。本文采用Adam优化器,其中
$\beta 1$ 为0.0,$\beta 2$ 为0.999,初始学习率为2×10−5。此外,通过随机镜像、旋转、平移、尺度变换等方式对训练图片进行扩充,编码器得到的高维特征维度设置为99维。 -
基于先验人脸框将人脸图片剪裁为256 Pixel×256 Pixel。为了创建标注数据的热力图,设置热力图径向范围
$\sigma $ 设置为7,热力图尺寸为128 Pixel×128 Pixel。此外,对训练数据集进行数据扩充操作,包括随机镜像、平移、旋转及尺度变换。优化器采用Adam优化器,其中$\beta 1$ 为0.0,$\beta 2$ 为0.999,初始学习率为0.001。 -
如前所述,本文将穴位检测问题定义为关键点检测问题。因此,为了评估FADbR模型框架的性能,本文选择了两种人脸关键点检测算法(SAN[24]和HRNet[16])作为对比模型进行迁移实现和性能对比。
其中,除了需要适配FAcupoint数据集的超参数,SAN和HRNet的具体实现过程尽可能按照原始论文中的默认值进行设置。为了保证实验结果的可比性,网络训练epoch统一设置为500次。此外,模型训练分为两种模式:基于原始数据训练和基于预训练模型训练(预训练模型采用基于300-W数据集[25]训练的模型)。
-
本文参照人脸关键点检测任务,使用以下指标进行模型性能评估。
1) NME(normalized mean error):NME通过计算穴位坐标的预测结果和标注真实值之间的平均欧几里得距离,并进行归一化以消除图像大小不一致带来的影响,计算过程如下所示:
$$ {\rm{NME}} = \frac{1}{K}\sum\limits_{k = 1}^K {{\rm{NM}}{{\rm{E}}_{{k}}}} $$ (8) $$ {\rm{NM}}{{\rm{E}}_k} = \frac{1}{N}\sum\limits_{n = 1}^N {\frac{{\left\| {{y_n} - {y_n}'} \right\|_2}}{d}} \times 100 $$ (9) 式中,
$K$ 是测试图像的数量(本文中为54);$N$ 是每个面部的穴位数量(本文中为43);$y$ 和$y'$ 分别表示穴位标注结果和穴位预测结果;$d$ 是归一化系数,结合穴位检测的特性,本文中$d$ 定义为靠近外眼角的左右瞳子髎穴位之间的距离。2) FR(failure rate):FR是NME值大于预定义阈值
$\delta $ (本文中为10%)的样本的百分比:$$ {\rm{FR}} = \frac{1}{K}\sum\limits_{{\text{k}} = 1}^K {\left[ {{\rm{NM}}{{\rm{E}}_k} \geqslant \delta } \right]} \times 100\% $$ (10) 3) AUC(area under the curve):随着预定义阈值
$\delta $ 从零增加到FR评估的预定义目标值,相应的比例(NME小于预定义阈值$\delta $ 的样本)被绘制为累积误差分布CED曲线,AUC指的是CED曲线下的面积,计算如下:$$ {\rm{FA}}\_{\rm{AU}}{{\rm{C}}_\alpha } = \int_0^\alpha {f(e){{{\rm{d}}e}}} $$ (11) 式中,
$e$ 是归一化误差;$f(e)$ 是CED函数;$\alpha $ 用来计算定积分的上限。可以看出,NME是FR和AUC的基础,因此NME为穴位检测任务的主要指标。NME和FR值越小表示穴位检测效果越好,反之,AUC越大表示穴位检测效果越好。
-
图3展示了基于FAcupoint数据集的不同模型实验可视化结果。其中,第一列为原始图像,后面依次为SAN、HRNet和FADbR模型的穴位坐标预测实验结果。绿色为穴位标注位置,红色为穴位预测结果。可以看出,FADbR和HRNet模型的预测结果较SAN模型的预测结果更好。对于FADbR和HRNet模型,部分穴位预测结果与人工标注位置基本重合。对比之下,SAN模型的穴位预测结果与人工标注位置误差较大。
此外,可以从图中看出,眼睛、眉毛、鼻子和嘴巴附近的穴位相比脸颊上的其他穴位预测结果更为准确,这可解释为模型在人脸图像重建任务中学习到了人脸五官相关特征表示,因此能够更加准确地识别五官附近的穴位。
-
表1列举了不同模型在FAcupoint数据集上的穴位检测性能。为了检验人脸图像重建任务的有效性,采用不同数量的训练样本对模型进行训练。为了消除样本选择的随机性,不同样本数量的实验重复进行5次,并取中间结果作为最终的性能指标。其中,表中符号√表示基于预训练模型训练穴位检测模型,符号×表示基于原始数据训练穴位检测模型,黑体显示代表了最好的模型性能。
表 1 基于FAcupoint数据集针对不同数量的训练样本不同模型的实验结果
衡量因子 模型 预训练 训练样本数量 100 200 300 400 500 600 NME%(↓) SAN × 70.1389 5.8149 5.2500 5.4630 5.4827 5.7913 √ 4.9123 5.3339 5.2360 5.2844 5.3227 5.4104 HRNet × 7.7899 5.1053 2.8565 2.7852 2.7771 2.7427 √ 6.1167 2.9241 2.8351 2.7894 2.7192 2.6690 FADbR √ 1.9197 1.9057 1.8979 1.8693 1.8694 1.8632 FR@0.1(↓) SAN × 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 √ 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 HRNet × 0.1111 0.0556 0.0000 0.0000 0.0000 0.0000 √ 0.0741 0.0000 0.0000 0.0000 0.0000 0.0000 FADbR √ 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 AUC(↑) SAN × 0.0000 0.4185 0.4750 0.4537 0.4518 0.4209 √ 0.5088 0.4666 0.4764 0.4716 0.4677 0.4590 HRNet × 0.4769 0.6807 0.7124 0.7161 0.7228 0.7267 √ 0.5650 0.7048 0.7148 0.7193 0.7263 0.7311 FADbR √ 0.8011 0.8026 0.8044 0.8059 0.8067 0.8070 从实验结果可以得到以下结论。1) FADbR模型在所有指标上都表现最好,HRNet模型比SAN模型表现更好。整体来讲,NME、FR和AUC相关性符合预期,即NME和FR呈正相关,NME和AUC呈负相关。2)除SAN模型外,随着训练样本数量的增加,穴位检测效果都有所提高,这表明了数据集大小对深度学习模型性能的重要性。SAN模型的性能不稳定的原因是该模型的生成对抗机制在较少的原始样本(少于100个)上进行训练会加重训练数据集和测试数据集之间的分布漂移,从而降低最终的穴位检测性能。3) FADbR模型在仅有100个训练样本的情况下也能取得较好性能,这也验证了本文方法在小样本数据集上的能力,进而证明了通过人脸图像重建过程学习到的人脸隐性知识对穴位检测的辅助作用。4)从结果可以看出,与基于原始数据训练的模型相比,通过加载预训练模型可以提高SAN和HRNet模型的穴位检测性能,但效果仍然不如FADbR模型。
为了进一步分析FADbR在不同穴位检测上的性能,本文采用箱型图的方式可视化了54个测试样本的不同穴位检测误差分布。如图4所示,横轴代表需检测的43个稠密穴位(序号与图5中标号一致),纵轴代表检测误差。其中,箱型图上下横线分别代表最小值和最大值,橙色横线代表中位值,矩形框上下刻度分别代表误差分布的上下1/4值,圆圈代表离群值。
从图4可以看出,大多数穴位检测误差分布均小于10个像素,中位值约为5个像素,总体性能良好。本文进一步分析了最大和最小的穴位误差分布,发现人脸关键点附近的部分穴位检测性能较好,如8(鱼腰穴)和16(球后穴)。在人脸关键点稀疏的区域,穴位检测性能较差,如脸颊上的28(四白穴)、38(大迎穴)等。上述结论与定性分析中结果一致,这一现象可以解释为通过重建机制从大量人脸图像中学习到了面部关键点的隐性知识,可用于支撑本文穴位检测研究。
A Facial Acupoint Detection Framework for Traditional Chinese Medicine by Incorporating Feature Representation Learning
-
摘要: 现有智能穴位检测方法存在依赖红外等外部设备、特征表示挖掘不足、穴位检测精度较低等问题。在分析穴位检测需求的基础上,将其定义为基于视觉图像的关键点检测任务,提出融合特征表示学习的中医面部穴位检测模型框架FADbR。首先,构建基于自监督学习机制的对抗自编码网络模型,通过人脸图像重建任务实现特征表示学习,利用神经网络提取人脸隐性知识,深度挖掘面部抽象特征。随后,基于自监督学习对抗自编码器构建监督学习面部穴位检测模型,充分利用学习到的人脸隐性知识提高智能面部穴位检测精度。最后,基于现有人脸数据库构建稠密人脸穴位数据集FAcupoint并用于方法验证。实验结果表明,FADbR可以通过表示学习挖掘面部关键特征支撑穴位检测任务,即使在少量训练样本的情况下也能够获得较好的检测性能。Abstract: Existing acupoint detection (AD) approaches suffer from extra-equipment-dependent, shallow feature representation, and poor accuracy issues. In this work, the AD task is defined as the key-point detection based on visual images by analyzing the task nature. A novel paradigm called facial acupoint detection by reconstruction (FADbR) is designed to achieve the facial AD task. Firstly, the adversarial autoencoder architecture serves as the backbone network based on the self-supervised learning mechanism. The image-to-image reconstruction procedure is performed to enhance the feature representation ability, in which the neural architecture is applied to capture hidden representations and abstract knowledge of the human face. In succession, the FADbR framework is constructed to implement the AD task in a supervised manner by designing the interleaved layers to output the heatmap for each acupoint. Because of the reconstruction procedure, a fine-grained model can be achieved to improve AD performance by the learned facial representations. A new dataset called FAcupoint is built to validate the proposed approach using a public human face dataset. Experimental results on the new dataset demonstrate that the proposed FADbR framework has the ability to extract high-level feature representation to improve AD performance. Most importantly, the FADbR framework can achieve preferred performance with small training samples, which further validates the reconstruction paradigm in this work.
-
表 1 基于FAcupoint数据集针对不同数量的训练样本不同模型的实验结果
衡量因子 模型 预训练 训练样本数量 100 200 300 400 500 600 NME%(↓) SAN × 70.1389 5.8149 5.2500 5.4630 5.4827 5.7913 √ 4.9123 5.3339 5.2360 5.2844 5.3227 5.4104 HRNet × 7.7899 5.1053 2.8565 2.7852 2.7771 2.7427 √ 6.1167 2.9241 2.8351 2.7894 2.7192 2.6690 FADbR √ 1.9197 1.9057 1.8979 1.8693 1.8694 1.8632 FR@0.1(↓) SAN × 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 √ 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 HRNet × 0.1111 0.0556 0.0000 0.0000 0.0000 0.0000 √ 0.0741 0.0000 0.0000 0.0000 0.0000 0.0000 FADbR √ 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 AUC(↑) SAN × 0.0000 0.4185 0.4750 0.4537 0.4518 0.4209 √ 0.5088 0.4666 0.4764 0.4716 0.4677 0.4590 HRNet × 0.4769 0.6807 0.7124 0.7161 0.7228 0.7267 √ 0.5650 0.7048 0.7148 0.7193 0.7263 0.7311 FADbR √ 0.8011 0.8026 0.8044 0.8059 0.8067 0.8070 -
[1] WHITE A, FOSTER N E, CUMMINGS M, et al. Acupuncture treatment for chronic knee pain: A systematic review[J]. Rheumatology, 2007, 46(3): 384-390. doi: 10.1093/rheumatology/kel413 [2] ZHENG L, QIN B, ZHUANG T, et al. Localization of acupoints on a head based on a 3D virtual body[J]. Image and Vision Computing, 2005, 23(1): 1-9. doi: 10.1016/j.imavis.2004.03.005 [3] LIN S, YI P. Human acupoint positioning system based on binocular vision[J]. IOP Conference Series: Materials Science and Engineering, 2019, 569(4): 042029-042034. doi: 10.1088/1757-899X/569/4/042029 [4] ZHAO Y, ZHANG D, WANG Y. Automatic location of facial acupuncture-point based on content of infrared thermal image[C]//International Conference on Computer Science & Education. Hefei: IEEE, 2010: 65-68. [5] CHANG M, ZHU Q. Automatic location of facial acupuncture-point based on facial feature points positioning[C]//International Conference on Frontiers of Manufacturing Science and Measuring Technology. Taiyuan: Atlantis, 2017: 545-549. [6] LAN K C, HU M C, CHEN Y Z, et al. The application of 3D morphable model (3DMM) for real-time visualization of acupoints on a smartphone[J]. IEEE Sensors Journal, 2020, 21(3): 3289-3300. [7] SUN L, SUN S, FU Y, et al. Acupoint detection based on deep convolutional neural network[C]//Chinese Control Conference (CCC). Shenyang: IEEE, 2020: 7418-7422. [8] WEI S E, RAMAKRISHNA V, KANADE T, et al. Convolutional pose machines[C]//Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 4724-4732. [9] COOTES T F, TAYLOR C J. Active shape model search using local grey-level models: a quantitative evaluation[C]//British Machine Vision Conference. Surrey: BMVA, 1993: 639-648. [10] COOTES T F, EDWARDS G J, TAYLOR C J. Active appearance models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(6): 681-685. doi: 10.1109/34.927467 [11] CRISTINACCE D, COOTES T F. Feature detection and tracking with constrained local models[C]//British Machine Vision Conference. Edinburgh: BMVA, 2006: 1-10. [12] ZHOU S K, COMANICIU D. Shape regression machine[J]. Information Processing in Medical Imaging, 2007, 4584: 13-25. [13] CAO X, WEI Y, FANG W, et al. Face alignment by explicit shape regression[J]. International Journal of Computer Vision, 2014, 107(2): 177-190. doi: 10.1007/s11263-013-0667-3 [14] ZHANG J, HU H, FENG S. Robust facial landmark detection via heatmap-offset regression[J]. IEEE Transactions on Image Processing, 2020, 29: 5050-5064. doi: 10.1109/TIP.2020.2976765 [15] ZOU X, ZHONG S, YAN L, et al. Learning robust facial landmark detection via hierarchical structured ensemble[C]//International Conference on Computer Vision. Seoul: IEEE Computer Society, 2019: 141-150. [16] SUN K, XIAO B, LIU D, et al. Deep high-resolution representation learning for human pose estimation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 5693-5703. [17] YI S, WANG X, TANG X. Deep convolutional network cascade for facial point detection[C]//Computer Vision and Pattern Recognition. Portland: IEEE Computer Society, 2013: 3476-3483. [18] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE Computer Society, 2016: 770-778. [19] FANG W, ZHANG F, SHENG V S, et al. A method for improving CNN-based image recognition using DCGAN[J]. Computers, Materials and Continua, 2018, 57(1): 167-178. doi: 10.32604/cmc.2018.02356 [20] WANG Z, SIMONCELLI E P, BOVIK A C. Multiscale structural similarity for image quality assessment[C]//Asilomar Conference on Signals, Systems & Computers. Pacific Grove: IEEE, 2003: 1398-1402. [21] CAO Q, SHEN L, XIE W, et al. Vggface2: A dataset for recognising faces across pose and age[C]//IEEE International Conference on Automatic Face & Gesture Recognition. Xi’an: IEEE, 2018: 67-74. [22] MOLLAHOSSEINI A, HASANI B, MAHOOR M H. Affectnet: A database for facial expression, valence, and arousal computing in the wild[J]. IEEE Transactions on Affective Computing, 2017, 10(1): 18-31. [23] GAO W, CAO B, SHAN S, et al. The CAS-PEAL large-scale Chinese face database and baseline evaluations[J]. IEEE Transactions on Systems, Man, and Cybernetics-Part A: Systems and Humans, 2007, 38(1): 149-161. [24] DONG X, YAN Y, OUYANG W, et al. Style aggregated network for facial landmark detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake: IEEE, 2018: 379-388. [25] SAGONAS C, TZIMIROPOULOS G, ZAFEIRIOU S, et al. 300 faces in-the-wild challenge: The first facial landmark localization challenge[C]//Proceedings of the IEEE International Conference on Computer Vision Workshops. Sydney: IEEE, 2013: 397-403.