留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

融合表示学习的中医面部穴位检测框架

张婷婷 杨红雨 林毅

张婷婷, 杨红雨, 林毅. 融合表示学习的中医面部穴位检测框架[J]. 电子科技大学学报, 2023, 52(2): 175-181. doi: 10.12178/1001-0548.2022392
引用本文: 张婷婷, 杨红雨, 林毅. 融合表示学习的中医面部穴位检测框架[J]. 电子科技大学学报, 2023, 52(2): 175-181. doi: 10.12178/1001-0548.2022392
ZHANG Tingting, YANG Hongyu, LIN Yi. A Facial Acupoint Detection Framework for Traditional Chinese Medicine by Incorporating Feature Representation Learning[J]. Journal of University of Electronic Science and Technology of China, 2023, 52(2): 175-181. doi: 10.12178/1001-0548.2022392
Citation: ZHANG Tingting, YANG Hongyu, LIN Yi. A Facial Acupoint Detection Framework for Traditional Chinese Medicine by Incorporating Feature Representation Learning[J]. Journal of University of Electronic Science and Technology of China, 2023, 52(2): 175-181. doi: 10.12178/1001-0548.2022392

融合表示学习的中医面部穴位检测框架

doi: 10.12178/1001-0548.2022392
基金项目: 国家自然科学基金区域联合重点项目(U20A20161)
详细信息
    作者简介:

    张婷婷(1993 – ),女,博士生,主要从事人工智能与类脑计算方面的研究

    通讯作者: 林毅,E-mail:yilin@scu.edu.cn
  • 中图分类号: TP391

A Facial Acupoint Detection Framework for Traditional Chinese Medicine by Incorporating Feature Representation Learning

  • 摘要: 现有智能穴位检测方法存在依赖红外等外部设备、特征表示挖掘不足、穴位检测精度较低等问题。在分析穴位检测需求的基础上,将其定义为基于视觉图像的关键点检测任务,提出融合特征表示学习的中医面部穴位检测模型框架FADbR。首先,构建基于自监督学习机制的对抗自编码网络模型,通过人脸图像重建任务实现特征表示学习,利用神经网络提取人脸隐性知识,深度挖掘面部抽象特征。随后,基于自监督学习对抗自编码器构建监督学习面部穴位检测模型,充分利用学习到的人脸隐性知识提高智能面部穴位检测精度。最后,基于现有人脸数据库构建稠密人脸穴位数据集FAcupoint并用于方法验证。实验结果表明,FADbR可以通过表示学习挖掘面部关键特征支撑穴位检测任务,即使在少量训练样本的情况下也能够获得较好的检测性能。
  • 图  1  FADbR网络架构图

    图  2  FAcupoint数据集标注数据样本可视化结果

    图  3  不同模型的穴位检测可视化结果

    图  4  本文方法的穴位检测误差分布图

    图  5  人脸43个穴位标注序号

    表  1  基于FAcupoint数据集针对不同数量的训练样本不同模型的实验结果

    衡量因子模型预训练训练样本数量
    100200300400500600
    NME%(↓)SAN×70.13895.81495.25005.46305.48275.7913
    4.91235.33395.23605.28445.32275.4104
    HRNet×7.78995.10532.85652.78522.77712.7427
    6.11672.92412.83512.78942.71922.6690
    FADbR1.91971.90571.89791.86931.86941.8632
    FR@0.1(↓)SAN×1.00000.00000.00000.00000.00000.0000
    0.00000.00000.00000.00000.00000.0000
    HRNet×0.11110.05560.00000.00000.00000.0000
    0.07410.00000.00000.00000.00000.0000
    FADbR0.00000.00000.00000.00000.00000.0000
    AUC(↑)SAN×0.00000.41850.47500.45370.45180.4209
    0.50880.46660.47640.47160.46770.4590
    HRNet×0.47690.68070.71240.71610.72280.7267
    0.56500.70480.71480.71930.72630.7311
    FADbR0.80110.80260.80440.80590.80670.8070
    下载: 导出CSV
  • [1] WHITE A, FOSTER N E, CUMMINGS M, et al. Acupuncture treatment for chronic knee pain: A systematic review[J]. Rheumatology, 2007, 46(3): 384-390. doi:  10.1093/rheumatology/kel413
    [2] ZHENG L, QIN B, ZHUANG T, et al. Localization of acupoints on a head based on a 3D virtual body[J]. Image and Vision Computing, 2005, 23(1): 1-9. doi:  10.1016/j.imavis.2004.03.005
    [3] LIN S, YI P. Human acupoint positioning system based on binocular vision[J]. IOP Conference Series: Materials Science and Engineering, 2019, 569(4): 042029-042034. doi:  10.1088/1757-899X/569/4/042029
    [4] ZHAO Y, ZHANG D, WANG Y. Automatic location of facial acupuncture-point based on content of infrared thermal image[C]//International Conference on Computer Science & Education. Hefei: IEEE, 2010: 65-68.
    [5] CHANG M, ZHU Q. Automatic location of facial acupuncture-point based on facial feature points positioning[C]//International Conference on Frontiers of Manufacturing Science and Measuring Technology. Taiyuan: Atlantis, 2017: 545-549.
    [6] LAN K C, HU M C, CHEN Y Z, et al. The application of 3D morphable model (3DMM) for real-time visualization of acupoints on a smartphone[J]. IEEE Sensors Journal, 2020, 21(3): 3289-3300.
    [7] SUN L, SUN S, FU Y, et al. Acupoint detection based on deep convolutional neural network[C]//Chinese Control Conference (CCC). Shenyang: IEEE, 2020: 7418-7422.
    [8] WEI S E, RAMAKRISHNA V, KANADE T, et al. Convolutional pose machines[C]//Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 4724-4732.
    [9] COOTES T F, TAYLOR C J. Active shape model search using local grey-level models: a quantitative evaluation[C]//British Machine Vision Conference. Surrey: BMVA, 1993: 639-648.
    [10] COOTES T F, EDWARDS G J, TAYLOR C J. Active appearance models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(6): 681-685. doi:  10.1109/34.927467
    [11] CRISTINACCE D, COOTES T F. Feature detection and tracking with constrained local models[C]//British Machine Vision Conference. Edinburgh: BMVA, 2006: 1-10.
    [12] ZHOU S K, COMANICIU D. Shape regression machine[J]. Information Processing in Medical Imaging, 2007, 4584: 13-25.
    [13] CAO X, WEI Y, FANG W, et al. Face alignment by explicit shape regression[J]. International Journal of Computer Vision, 2014, 107(2): 177-190. doi:  10.1007/s11263-013-0667-3
    [14] ZHANG J, HU H, FENG S. Robust facial landmark detection via heatmap-offset regression[J]. IEEE Transactions on Image Processing, 2020, 29: 5050-5064. doi:  10.1109/TIP.2020.2976765
    [15] ZOU X, ZHONG S, YAN L, et al. Learning robust facial landmark detection via hierarchical structured ensemble[C]//International Conference on Computer Vision. Seoul: IEEE Computer Society, 2019: 141-150.
    [16] SUN K, XIAO B, LIU D, et al. Deep high-resolution representation learning for human pose estimation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 5693-5703.
    [17] YI S, WANG X, TANG X. Deep convolutional network cascade for facial point detection[C]//Computer Vision and Pattern Recognition. Portland: IEEE Computer Society, 2013: 3476-3483.
    [18] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE Computer Society, 2016: 770-778.
    [19] FANG W, ZHANG F, SHENG V S, et al. A method for improving CNN-based image recognition using DCGAN[J]. Computers, Materials and Continua, 2018, 57(1): 167-178. doi:  10.32604/cmc.2018.02356
    [20] WANG Z, SIMONCELLI E P, BOVIK A C. Multiscale structural similarity for image quality assessment[C]//Asilomar Conference on Signals, Systems & Computers. Pacific Grove: IEEE, 2003: 1398-1402.
    [21] CAO Q, SHEN L, XIE W, et al. Vggface2: A dataset for recognising faces across pose and age[C]//IEEE International Conference on Automatic Face & Gesture Recognition. Xi’an: IEEE, 2018: 67-74.
    [22] MOLLAHOSSEINI A, HASANI B, MAHOOR M H. Affectnet: A database for facial expression, valence, and arousal computing in the wild[J]. IEEE Transactions on Affective Computing, 2017, 10(1): 18-31.
    [23] GAO W, CAO B, SHAN S, et al. The CAS-PEAL large-scale Chinese face database and baseline evaluations[J]. IEEE Transactions on Systems, Man, and Cybernetics-Part A: Systems and Humans, 2007, 38(1): 149-161.
    [24] DONG X, YAN Y, OUYANG W, et al. Style aggregated network for facial landmark detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake: IEEE, 2018: 379-388.
    [25] SAGONAS C, TZIMIROPOULOS G, ZAFEIRIOU S, et al. 300 faces in-the-wild challenge: The first facial landmark localization challenge[C]//Proceedings of the IEEE International Conference on Computer Vision Workshops. Sydney: IEEE, 2013: 397-403.
  • [1] 莫太平, 黄巧人, 陈德鸿, 伍锡如, 张向文.  改进可逆缩放网络的图像超分辨率重建 . 电子科技大学学报, 2023, 52(5): 739-746. doi: 10.12178/1001-0548.2022261
    [2] 李林, 范明钰, 郝江涛.  基于对抗攻击的图像隐写策略搜索 . 电子科技大学学报, 2022, 51(2): 259-263. doi: 10.12178/1001-0548.2021335
    [3] 朱赟, 陈明真, 陈莹, 喻高航, 威力.  稀疏角度CT图像重建的一类自适应临近点算法 . 电子科技大学学报, 2019, 48(2): 228-232. doi: 10.3969/j.issn.1001-0548.2019.02.011
    [4] 唐贤伦, 刘雨微, 万亚利, 马艺玮.  堆叠稀疏降噪自编码的脑电信号识别 . 电子科技大学学报, 2019, 48(1): 62-67. doi: 10.3969/j.issn.1001-0548.2019.01.011
    [5] 戴晓爱, 郭守恒, 任淯, 杨晓霞, 刘汉湖.  基于堆栈式稀疏自编码器的高光谱影像分类 . 电子科技大学学报, 2016, 45(3): 382-386. doi: 10.3969/j.issn.1001-0548.2016.02.012
    [6] 李晓峰, 曾蕾, 徐进, 马世琪.  基于特征表征的单幅图像超分辨方法 . 电子科技大学学报, 2015, 44(1): 22-27. doi: 10.3969/j.issn.1001-0548.2015.01.003
    [7] 夏慧, 刘国强, 郭亮, 黄欣, 陈晶.  二维磁声电图像重建及成像影响因素分析 . 电子科技大学学报, 2015, 44(1): 150-154. doi: 10.3969/j.issn.1001-0548.2015.01.026
    [8] 黄颖, 王文斌, 郑弘晖.  基于代数多重网格的图像传感器物体识别技术 . 电子科技大学学报, 2015, 44(5): 743-748. doi: 10.3969/j.issn.1001-0548.2015.05.018
    [9] 刘怡光, 赵晨晖, 黄蓉刚, 第宝峰.  勿需图像矫正的高精度窄基线三维重建算法 . 电子科技大学学报, 2014, 43(2): 262-267. doi: 10.3969/j.issn.1001-0548.2014.02.020
    [10] 贾真, 杨燕, 何大可.  基于弱监督学习的中文百科数据属性抽取 . 电子科技大学学报, 2014, 43(5): 758-763. doi: 10.3969/j.issn.1001-0548.2014.05.022
    [11] 刘昶, 周激流, 何坤, 张健.  正交非负CP分解的图像表示和识别 . 电子科技大学学报, 2011, 40(6): 905-910. doi: 10.3969/j.issn.1001-0548.2011.06.019
    [12] 何晓乾, 陈雷霆, 房春兰.  基于纹理映射的医学图像三维重建 . 电子科技大学学报, 2007, 36(3): 576-578,586.
    [13] 尹忠科, 王建英, Pierre Vandergheynst.  由图像的稀疏分解重建图像的快速算法 . 电子科技大学学报, 2006, 35(4): 447-449.
    [14] 鲁珂, 赵继东, 叶娅兰, 曾家智.  一种用于图像检索的新型半监督学习算法 . 电子科技大学学报, 2005, 34(5): 669-671.
    [15] 傅彦, 周俊临.  基于无监督学习的盲信号源分离技术研究 . 电子科技大学学报, 2004, 33(1): 63-66.
    [16] 胡仕兵, 向敬成, 翟义然.  G.729语音编码器定点DSP的实时实现 . 电子科技大学学报, 2003, 32(4): 362-366.
    [17] 陈新坤, 周东, 余敬东.  Manchester编码器的FPGA设计与实现 . 电子科技大学学报, 2003, 32(3): 324-327.
    [18] 詹柔莹, 徐国鼐.  调频广播用数字立体声编码器的数字内插处理 . 电子科技大学学报, 2000, 29(1): 14-16.
    [19] 明军, 吴萍, 王亮.  基色编码器的信号设计 . 电子科技大学学报, 1999, 28(5): 464-466.
    [20] 郑伟强, 赵志钦, 黄顺吉.  合成孔径雷达极坐标数据编码器 . 电子科技大学学报, 1997, 26(1): 21-23.
  • 加载中
图(5) / 表(1)
计量
  • 文章访问数:  3452
  • HTML全文浏览量:  1644
  • PDF下载量:  97
  • 被引次数: 0
出版历程
  • 收稿日期:  2022-11-16
  • 修回日期:  2023-01-18
  • 网络出版日期:  2023-04-03
  • 刊出日期:  2023-03-28

融合表示学习的中医面部穴位检测框架

doi: 10.12178/1001-0548.2022392
    基金项目:  国家自然科学基金区域联合重点项目(U20A20161)
    作者简介:

    张婷婷(1993 – ),女,博士生,主要从事人工智能与类脑计算方面的研究

    通讯作者: 林毅,E-mail:yilin@scu.edu.cn
  • 中图分类号: TP391

摘要: 现有智能穴位检测方法存在依赖红外等外部设备、特征表示挖掘不足、穴位检测精度较低等问题。在分析穴位检测需求的基础上,将其定义为基于视觉图像的关键点检测任务,提出融合特征表示学习的中医面部穴位检测模型框架FADbR。首先,构建基于自监督学习机制的对抗自编码网络模型,通过人脸图像重建任务实现特征表示学习,利用神经网络提取人脸隐性知识,深度挖掘面部抽象特征。随后,基于自监督学习对抗自编码器构建监督学习面部穴位检测模型,充分利用学习到的人脸隐性知识提高智能面部穴位检测精度。最后,基于现有人脸数据库构建稠密人脸穴位数据集FAcupoint并用于方法验证。实验结果表明,FADbR可以通过表示学习挖掘面部关键特征支撑穴位检测任务,即使在少量训练样本的情况下也能够获得较好的检测性能。

English Abstract

张婷婷, 杨红雨, 林毅. 融合表示学习的中医面部穴位检测框架[J]. 电子科技大学学报, 2023, 52(2): 175-181. doi: 10.12178/1001-0548.2022392
引用本文: 张婷婷, 杨红雨, 林毅. 融合表示学习的中医面部穴位检测框架[J]. 电子科技大学学报, 2023, 52(2): 175-181. doi: 10.12178/1001-0548.2022392
ZHANG Tingting, YANG Hongyu, LIN Yi. A Facial Acupoint Detection Framework for Traditional Chinese Medicine by Incorporating Feature Representation Learning[J]. Journal of University of Electronic Science and Technology of China, 2023, 52(2): 175-181. doi: 10.12178/1001-0548.2022392
Citation: ZHANG Tingting, YANG Hongyu, LIN Yi. A Facial Acupoint Detection Framework for Traditional Chinese Medicine by Incorporating Feature Representation Learning[J]. Journal of University of Electronic Science and Technology of China, 2023, 52(2): 175-181. doi: 10.12178/1001-0548.2022392
  • 穴位是中医学的核心和基础,穴位疗法[1]是中医治疗的重要组成部分。临床实践中,穴位疗法的治疗功效高度依赖医师的技能水平和经验。然而,培养合格的医师需要很高的成本,不仅需要专业的医学知识,更需要长期的临床实践。因此,为了提供临床辅助诊疗手段并降低医师的培养成本,开展穴位疗法智能化研究具有很强的现实意义。

    穴位疗法的基础是找到需要待刺激穴位的准确位置。因此,精准智能穴位检测是穴位疗法智能化研究需要解决的首要问题。临床医学上,常用的取穴方法可分为体表解剖标志法、骨度分寸法和同身寸法[2-3],上述3种方法都是从视觉层面进行穴位定位。基于此,运用基于图像的计算机视觉技术实现智能穴位识别和定位是可行的穴位疗法智能化系统技术路线。根据中医理论,穴位是皮肤表面大小不定的区域,临床诊疗证实刺激穴位中心点能取得更好的治疗效果。因此,本文将穴位检测定义为关键点检测任务,包括穴位类别识别和穴位定位。

    近年来,研究学者提出了多种智能穴位检测方法[4-7]。然而,现有方法存在依赖红外等外部设备、特征表示挖掘不足、穴位检测精度较低等问题。针对上述问题,本文提出了基于深度神经网络的面部穴位检测模型FADbR(facial acupoint detection by reconstruction),充分利用深度学习的非线性建模能力,深度挖掘面部隐性知识,提升模型的人脸特征提取能力。同时,本文构建了一个稠密的人脸穴位数据集FAcupoint用于训练复杂场景的面部穴位检测模型,提高模型在真实场景下的可用性。

    与现有智能穴位检测方法相比,本文方法能够利用深度挖掘的面部特征实现端到端人脸穴位检测,且不需要依赖红外等特殊的外部设备。此外,得益于重建任务的深度特征表示挖掘,本文提出的检测方法可在少量标注样本情况下达到良好的面部稠密穴位检测效果,能够有效降低基于神经网络模型的面部穴位识别方法对标注数据的依赖。

    • 早期穴位检测主要依据中医理论的解剖标志法、骨度分寸法和同身寸法等来确定穴位的位置[2-3]。然而,这些方法仅针对研究的有限个体有效,不具备智能穴位识别的条件。随后,研究人员引入额外设备来辅助穴位检测,但是由于坐标系统构建误差大等问题导致穴位识别精度严重不足[2, 7]。文献[5-6]提出基于人脸关键点的面部穴位识别方法。在这类方法中,人脸关键点检测误差会造成穴位位置推算的级联误差,进而影响穴位检测准确度。随着人工智能和深度学习技术的发展,文献[7-8]提出应用人体关键点检测模型CPM识别上臂的曲泽穴和大陵穴。但上述应用环境过于简单,随着穴位数量增加,检测性能势必会受到一定程度的影响。

      综上所述,中医智能面部穴位检测仍存在很大的研究空间,且穴位数据集也是限制中医智能穴位检测发展的关键所在。

    • 人脸关键点检测任务是在人脸图像上识别出五官的位置,现有方法主要分为传统图像处理方法和基于深度学习的方法。传统方法主要有基于全局主动模型的方法(ASM[9]、AAM[10])、基于局部约束模型的方法(CLM[11])及基于形状回归模型的方法[12-13],虽然目前有各种优化方法,但是效果提升有限。基于深度学习的方法利用神经网络提取抽象特征表示识别人脸关键点。根据回归目标不同,可以分为基于热力图回归的方法[14-15]和基于坐标回归的方法[16-17]。一般来说,基于热力图回归的方法能够获得较基于坐标回归方法更高的精度,但是需要更大的模型和计算量。

    • 图1所示,本文提出的面部穴位检测模型框架FADbR骨干为自编码网络结构,包括编码器(encoder)和生成器(generator)。生成器模块中间设计了特征共享传输层(interleaved layer)支撑穴位检测。

      图  1  FADbR网络架构图

      该方法包含人脸图像重建和面部穴位检测两阶段模型训练过程。

      1)人脸图像重建:第一阶段通过自监督学习机制重建人脸图像,获取人脸的低维高阶特征表示。编码器将输入人脸图像压缩成稠密高阶表征(latent features),生成器通过该特征表示重构输入图像。由于模型的输入和输出均为无标注数据,这一训练过程也称为自监督学习。

      2)面部穴位检测:第二阶段基于人脸图像重建阶段的自编码网络模型结构,在生成器模块中间设计特征共享传输层提取深度面部特征,预测穴位热力图,包括穴位类别和坐标。模型能够充分利用人脸图像重建阶段提取到的抽象人脸特征辅助完成人脸穴位精准识别和定位,能够在较少标注样本数据的情况下获得更好性能。

    • 本文自编码网络结构中编码器网络$E$采用标准的ResNet-18[18]结构,生成器网络$G$采用逆ResNet-18结构。给定一张输入图像$x$,经编码器网络$E$处理生成特征向量${\boldsymbol{z}} \in {\mathbb{R}^d}$。生成器$ G({\boldsymbol{z}}) $将特征向量${\boldsymbol{z}}$投影回图像空间$x' = G(E(x))$。鉴别器$D$采用DCGAN网络[19]区分生成人脸图像$x'$是否足够接近原始人脸图像$x$。自监督人脸重建过程中,通过4个损失函数训练以保证人脸图像的重建效果,具体如下。

      1)基于像素的图像重建损失$L_{\text{rec}}$

      $$ L_{\text{rec}}(E,G) = {\rm{E}}_{x \sim p(x)}[||x - G(E(x))|{|}_1] $$ (1)

      2)保证编码生成隐性空间平滑和连续性的对抗特征损失$L_{\text{enc}}$

      $$ \begin{split} & L_{\text{enc}}(E,D_{\boldsymbol{z}}) = {\rm{E}}_{{\boldsymbol{z}}^* \sim p({\boldsymbol{z}})}[\lg D_z({\boldsymbol{z}}*)] + \\ & \qquad {\rm{E}}_{x \sim p(x)}[\lg (1 - {D_{\boldsymbol{z}}}(E(x)))] \end{split} $$ (2)

      3)为了避免图片模糊,使得编码器$E$和生成器$G$生成高仿真度重建结果的对抗图像损失$L_{\text{adv}}$

      $$ \begin{split} & L_{\text{adv}}(E,G,D_x) = {\rm{E}}_{x \sim p(x)}[\lg D_x(x)] + \\ &\qquad {\rm{E}}_{x \sim p(x)}[\lg (1 - D_x(G(E(x))))] \end{split} $$ (3)

      4)基于SSIM[20]的图像结构损失$L_{\text{cs}}$

      $$ \begin{split} & L_{\text{cs}}(E,G) = {\rm{E}}_{x \sim p(x)}[{\rm{cs}}(x,G(E(x)))] \\ & {\rm{cs}}(x,y) = \frac{1}{{\left| w \right|}}\sum\limits_w {c({x_w},{y_w})s({x_w},{y_w})} \\ & \qquad c(a,b) = \frac{{2{\sigma _a}{\sigma _b} + c}}{{\sigma _a^2 + \sigma _b^2 + c}} \\ & \qquad s(a,b) = \frac{{{\sigma _{ab}} + c/2}}{{{\sigma _a}{\sigma _b} + c/2}} \end{split} $$ (4)

      式中,$a$$b$代表两个图像窗口;$c(a,b)$用于衡量两个窗口的差异程度;$s(a,b)$用于衡量两个窗口的相关程度。

      最终,自编码器的损失函数定义如下:

      $$ \begin{split} & \mathop {\min }\limits_{E,G} \mathop {\max }\limits_{{D_{\boldsymbol{z}}},{D_x}} L_{\text{AE}}(E,G,D_{\boldsymbol{z}},D_x) = \\ & \lambda _{\text{rec}}L_{\text{rec}}(E,G) + \lambda _{\text{enc}}L_{\text{enc}}(E,{D_{\boldsymbol{z}}}) + \\ & \lambda _{\text{adv}}L_{\text{adv}}(E,G,{D_x}) + \lambda _{\text{cs}}L_{\text{cs}}(E,G) \end{split} $$ (5)

      式中,$ \lambda _{\text{rec}} $$ \lambda _{\text{enc}} $$ \lambda _{\text{adv}} $$ \lambda _{\text{cs}} $分别为$L_{\text{rec}}$$L_{\text{enc}}$$L_{\text{adv}}$$L_{\text{cs}}$的权重。

    • 穴位检测阶段,网络利用提取的人脸隐性知识辅助生成热力图。首先冻结自编码器参数,在逆ResNet层中插入卷积层提取生成器每一层关键特征,且设置输出通道与原始逆ResNet层的数量相同,最后一层卷积则映射为43个不同通道的热力图。热力图预测损失函数定义为:

      $$ L_H = {\rm{E}}_{x \sim p(x)}[||H - {\rm{FSL}}(a_1)||_2] $$ (6)

      式中,$x$为给定的标注人脸图像;$H$为热力图的真实值。在面部穴位检测训练和预测过程中,第一个逆ResNet层经过激活函数之后生成$a_1$,然后传给第一个新增卷积层进行特征共享传输${\rm{FSL}}$运算。基于模型输出的热力图,穴位坐标计算公式为:

      $$ {\tilde l_i} = \mathop {\arg \max }\limits_{u,v} H'(u,v) $$ (7)

      式中,$H'$为预测的人脸穴位热力图;$ {\tilde l_i}$为第$i$个人脸穴位的预测坐标;$u$$v$分别为预测的人脸热力图的横坐标和纵坐标。

    • 本文的数据集包含如下两类。1)人脸图像重建任务数据集:采用VGGFace2[21]和AffectNet[22]两个数据集进行自编码网络模型训练。2)穴位检测任务数据集:采用自建的FAcupoint数据集。本文选择人脸数据库CAS-PEAL-R1[23]作为原始图像进行面部穴位标注,包括穴位的类别及坐标。为了保证穴位标注精度,特邀请成都中医药大学5名拥有10年以上从业经验的针灸专家对数据进行标注、自查及互相核对,并将所有专家的标注数据取平均,最终得到FAcupoint人脸穴位数据集。FAcupoint数据集共包含654张正面人脸图片,其中男性图片326张,女性图片328张,每张图片均标注了面部额头以下的43个穴位点。

      图2所示为FAcupoint数据样本的可视化结果。第一行和第三行为原始图像,第二行和第四行为对应的数据标注可视化结果图,绿色点代表标注穴位的位置。

      图  2  FAcupoint数据集标注数据样本可视化结果

      为测试FADbR的穴位检测性能,本文将FAcupoint数据集按照男女性别划分训练集和测试集,具体如下:1)从男性图片中随机挑选299张图片作为训练数据,剩下27张作为测试数据;2)从女性图片中随机挑选301张图片作为训练数据,剩下27张作为测试数据;因此,本文穴位检测模型训练样本共600张图片,测试样本共54张图片。

    • 自编码模型训练epoch为50次,输入输出图片大小为128 Pixel×128 Pixel,batch-size为100个。模型收敛之后,编码器和解码器都增加额外的一个残差层再次训练来提高人脸重建效果。epoch为50次,图片尺寸为256 Pixel×256 Pixel,batch-size为50个。本文采用Adam优化器,其中$\beta 1$为0.0,$\beta 2$为0.999,初始学习率为2×10−5。此外,通过随机镜像、旋转、平移、尺度变换等方式对训练图片进行扩充,编码器得到的高维特征维度设置为99维。

    • 基于先验人脸框将人脸图片剪裁为256 Pixel×256 Pixel。为了创建标注数据的热力图,设置热力图径向范围$\sigma $设置为7,热力图尺寸为128 Pixel×128 Pixel。此外,对训练数据集进行数据扩充操作,包括随机镜像、平移、旋转及尺度变换。优化器采用Adam优化器,其中$\beta 1$为0.0,$\beta 2$为0.999,初始学习率为0.001。

    • 如前所述,本文将穴位检测问题定义为关键点检测问题。因此,为了评估FADbR模型框架的性能,本文选择了两种人脸关键点检测算法(SAN[24]和HRNet[16])作为对比模型进行迁移实现和性能对比。

      其中,除了需要适配FAcupoint数据集的超参数,SAN和HRNet的具体实现过程尽可能按照原始论文中的默认值进行设置。为了保证实验结果的可比性,网络训练epoch统一设置为500次。此外,模型训练分为两种模式:基于原始数据训练和基于预训练模型训练(预训练模型采用基于300-W数据集[25]训练的模型)。

    • 本文参照人脸关键点检测任务,使用以下指标进行模型性能评估。

      1) NME(normalized mean error):NME通过计算穴位坐标的预测结果和标注真实值之间的平均欧几里得距离,并进行归一化以消除图像大小不一致带来的影响,计算过程如下所示:

      $$ {\rm{NME}} = \frac{1}{K}\sum\limits_{k = 1}^K {{\rm{NM}}{{\rm{E}}_{{k}}}} $$ (8)
      $$ {\rm{NM}}{{\rm{E}}_k} = \frac{1}{N}\sum\limits_{n = 1}^N {\frac{{\left\| {{y_n} - {y_n}'} \right\|_2}}{d}} \times 100 $$ (9)

      式中,$K$是测试图像的数量(本文中为54);$N$是每个面部的穴位数量(本文中为43);$y$$y'$分别表示穴位标注结果和穴位预测结果;$d$是归一化系数,结合穴位检测的特性,本文中$d$定义为靠近外眼角的左右瞳子髎穴位之间的距离。

      2) FR(failure rate):FR是NME值大于预定义阈值$\delta $(本文中为10%)的样本的百分比:

      $$ {\rm{FR}} = \frac{1}{K}\sum\limits_{{\text{k}} = 1}^K {\left[ {{\rm{NM}}{{\rm{E}}_k} \geqslant \delta } \right]} \times 100\% $$ (10)

      3) AUC(area under the curve):随着预定义阈值$\delta $从零增加到FR评估的预定义目标值,相应的比例(NME小于预定义阈值$\delta $的样本)被绘制为累积误差分布CED曲线,AUC指的是CED曲线下的面积,计算如下:

      $$ {\rm{FA}}\_{\rm{AU}}{{\rm{C}}_\alpha } = \int_0^\alpha {f(e){{{\rm{d}}e}}} $$ (11)

      式中,$e$是归一化误差;$f(e)$是CED函数;$\alpha $用来计算定积分的上限。

      可以看出,NME是FR和AUC的基础,因此NME为穴位检测任务的主要指标。NME和FR值越小表示穴位检测效果越好,反之,AUC越大表示穴位检测效果越好。

    • 图3展示了基于FAcupoint数据集的不同模型实验可视化结果。其中,第一列为原始图像,后面依次为SAN、HRNet和FADbR模型的穴位坐标预测实验结果。绿色为穴位标注位置,红色为穴位预测结果。可以看出,FADbR和HRNet模型的预测结果较SAN模型的预测结果更好。对于FADbR和HRNet模型,部分穴位预测结果与人工标注位置基本重合。对比之下,SAN模型的穴位预测结果与人工标注位置误差较大。

      此外,可以从图中看出,眼睛、眉毛、鼻子和嘴巴附近的穴位相比脸颊上的其他穴位预测结果更为准确,这可解释为模型在人脸图像重建任务中学习到了人脸五官相关特征表示,因此能够更加准确地识别五官附近的穴位。

      图  3  不同模型的穴位检测可视化结果

    • 表1列举了不同模型在FAcupoint数据集上的穴位检测性能。为了检验人脸图像重建任务的有效性,采用不同数量的训练样本对模型进行训练。为了消除样本选择的随机性,不同样本数量的实验重复进行5次,并取中间结果作为最终的性能指标。其中,表中符号√表示基于预训练模型训练穴位检测模型,符号×表示基于原始数据训练穴位检测模型,黑体显示代表了最好的模型性能。

      表 1  基于FAcupoint数据集针对不同数量的训练样本不同模型的实验结果

      衡量因子模型预训练训练样本数量
      100200300400500600
      NME%(↓)SAN×70.13895.81495.25005.46305.48275.7913
      4.91235.33395.23605.28445.32275.4104
      HRNet×7.78995.10532.85652.78522.77712.7427
      6.11672.92412.83512.78942.71922.6690
      FADbR1.91971.90571.89791.86931.86941.8632
      FR@0.1(↓)SAN×1.00000.00000.00000.00000.00000.0000
      0.00000.00000.00000.00000.00000.0000
      HRNet×0.11110.05560.00000.00000.00000.0000
      0.07410.00000.00000.00000.00000.0000
      FADbR0.00000.00000.00000.00000.00000.0000
      AUC(↑)SAN×0.00000.41850.47500.45370.45180.4209
      0.50880.46660.47640.47160.46770.4590
      HRNet×0.47690.68070.71240.71610.72280.7267
      0.56500.70480.71480.71930.72630.7311
      FADbR0.80110.80260.80440.80590.80670.8070

      从实验结果可以得到以下结论。1) FADbR模型在所有指标上都表现最好,HRNet模型比SAN模型表现更好。整体来讲,NME、FR和AUC相关性符合预期,即NME和FR呈正相关,NME和AUC呈负相关。2)除SAN模型外,随着训练样本数量的增加,穴位检测效果都有所提高,这表明了数据集大小对深度学习模型性能的重要性。SAN模型的性能不稳定的原因是该模型的生成对抗机制在较少的原始样本(少于100个)上进行训练会加重训练数据集和测试数据集之间的分布漂移,从而降低最终的穴位检测性能。3) FADbR模型在仅有100个训练样本的情况下也能取得较好性能,这也验证了本文方法在小样本数据集上的能力,进而证明了通过人脸图像重建过程学习到的人脸隐性知识对穴位检测的辅助作用。4)从结果可以看出,与基于原始数据训练的模型相比,通过加载预训练模型可以提高SAN和HRNet模型的穴位检测性能,但效果仍然不如FADbR模型。

      为了进一步分析FADbR在不同穴位检测上的性能,本文采用箱型图的方式可视化了54个测试样本的不同穴位检测误差分布。如图4所示,横轴代表需检测的43个稠密穴位(序号与图5中标号一致),纵轴代表检测误差。其中,箱型图上下横线分别代表最小值和最大值,橙色横线代表中位值,矩形框上下刻度分别代表误差分布的上下1/4值,圆圈代表离群值。

      图4可以看出,大多数穴位检测误差分布均小于10个像素,中位值约为5个像素,总体性能良好。本文进一步分析了最大和最小的穴位误差分布,发现人脸关键点附近的部分穴位检测性能较好,如8(鱼腰穴)和16(球后穴)。在人脸关键点稀疏的区域,穴位检测性能较差,如脸颊上的28(四白穴)、38(大迎穴)等。上述结论与定性分析中结果一致,这一现象可以解释为通过重建机制从大量人脸图像中学习到了面部关键点的隐性知识,可用于支撑本文穴位检测研究。

      图  4  本文方法的穴位检测误差分布图

      图  5  人脸43个穴位标注序号

    • 为了解决当前中医穴位检测依赖外部设备、特征表示挖掘不足及检测精度低的问题,促进穴位检测领域的发展,本文构建了人脸穴位数据集FAcupoint并提出FADbR面部穴位检测算法框架,通过重建任务充分提取人脸特征,降低模型对标注数据的依赖。为了验证FADbR框架的性能,本文对比了FADbR与迁移后的SAN和HRNet模型的穴位检测效果。实验结果表明,FADbR模型获得了最好的穴位检测效果,融合的特征表示学习能够在小样本情况下获得稳定良好的性能,且不需要依赖外部设备。

      后续将继续围绕FAcupoint数据集开展研究工作,如探索基于Transformer的模型架构实现高精度穴位检测。

参考文献 (25)

目录

    /

    返回文章
    返回