留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

面向视网膜血管精细分割的多层级图卷积特征融合神经编解码网络

崔少国 张乐迁 文浩

崔少国, 张乐迁, 文浩. 面向视网膜血管精细分割的多层级图卷积特征融合神经编解码网络[J]. 电子科技大学学报, 2024, 53(3): 404-413. doi: 10.12178/1001-0548.2023131
引用本文: 崔少国, 张乐迁, 文浩. 面向视网膜血管精细分割的多层级图卷积特征融合神经编解码网络[J]. 电子科技大学学报, 2024, 53(3): 404-413. doi: 10.12178/1001-0548.2023131
CUI Shaoguo, ZHANG Leqian, WEN Hao. Multilayer Graph Convolutional Feature Fusion Neural Encoding and Decoding Network for Fine Segmentation of Retinal Vessels[J]. Journal of University of Electronic Science and Technology of China, 2024, 53(3): 404-413. doi: 10.12178/1001-0548.2023131
Citation: CUI Shaoguo, ZHANG Leqian, WEN Hao. Multilayer Graph Convolutional Feature Fusion Neural Encoding and Decoding Network for Fine Segmentation of Retinal Vessels[J]. Journal of University of Electronic Science and Technology of China, 2024, 53(3): 404-413. doi: 10.12178/1001-0548.2023131

面向视网膜血管精细分割的多层级图卷积特征融合神经编解码网络

doi: 10.12178/1001-0548.2023131
基金项目: 国家自然科学基金(62003065);重庆市科技局自然基金面上项目(CSTB2022NSCQ-MSX1206);重庆市技术预见与制度创新项目(CSTB2022TFII-OFX0042);教育部人文社科规划基金(22YJA870005);重庆市教委重点项目(KJZD-K202200510);重庆市社会科学规划项目(2022NDYB119);重庆市教委人文社科项目(23SKGH072);重庆师范大学人才基金(20XLB004)
详细信息
    作者简介:

    崔少国,博士,教授,主要从事大数据与人工智能等方面的研究

    通讯作者: 崔少国,E-mail:ailabcui@163.com
  • 中图分类号: TP391.41

Multilayer Graph Convolutional Feature Fusion Neural Encoding and Decoding Network for Fine Segmentation of Retinal Vessels

  • 摘要: 眼底视网膜血管分割可以帮助医生对眼科疾病以及心脑血管疾病进行辅助诊断。然而,由于血管拓扑结构复杂,边界不清晰,分割难度增大。针对这些问题,在U型结构的基础上提出了一种基于图卷积特征融合网络。该网络使用图卷积模块对编码器特征中像素之间的全局上下文信息进行建模,弥补普通卷积缺少全局建模的能力;然后使用多尺度特征融合模块对编码器特征与解码器特征进行融合,减少特征层中噪声信息对分割结果的影响;最后使用多层次特征融合模块将解码器每一层特征融合输出,减少下采样过程中空间信息的缺失以及对深层特征的复用。在公开数据集DRIVE、CHASEDB1以及STARE上进行验证,F1值和AUC值均优于其他两个模型。
  • 图  1  方法结构图

    图  2  图卷积模块

    图  3  多尺度特征融合模块

    图  4  多层次特征融合模块

    图  5  数据预处理最终结果

    图  6  不同模型在DRIVE数据集上ROC曲线与PR曲线对比图

    图  7  不同模型在CHASEDB1数据集上ROC曲线与PR曲线对比图

    图  8  不同模型在STARE数据集上ROC曲线与PR曲线对比图

    图  9  不同模型分割效果对比图

    图  10  K取值分析

    表  1  不同模型在DRIVE、CHASEDB1和STARE上的性能指标比较

    数据集 Model F1 SE SP ACC AUC(ROC)
    DRIVE U-Net 0.8248 0.8213 0.9751 0.9555 0.9773
    Attention U-Net 0.8254 0.8389 0.9717 0.9548 0.9805
    GCFF-Net(本文) 0.8290 0.8345 0.9739 0.9573 0.9813
    CHASEDB1 U-Net 0.8224 0.8213 0.9782 0.9609 0.9837
    Attention U-Net 0.8328 0.8320 0.9778 0.9631 0.9873
    GCFF-Net(本文) 0.8379 0.8427 0.9791 0.9640 0.9878
    STARE U-Net 0.8002 0.7285 0.9896 0.9632 0.9807
    Attention U-Net 0.8032 0.7546 0.9860 0.9626 0.9821
    GCFF-Net(本文) 0.8063 0.7786 0.9814 0.9595 0.9836
    下载: 导出CSV

    表  2  不同模型复杂度对比

    model Params/M Times/ms
    U-Net 34.5259 3.4007
    Attention-Unet 34.8774 6.4478
    GCFF-Net(本文) 34.8793 10.1559
    下载: 导出CSV

    表  3  不同算法在DRIVE数据集上的性能指标

    Algorithm F1 SE SP ACC AUC
    R2U-Net[20] 0.8150 0.7735 0.9818 0.9553 0.9784
    DUNet[21] 0.8237 0.7963 0.9721 0.9566 0.9820
    MResU-Net[22] 0.8237 0.7969 0.9799 -- 0.9799
    RSAN[23] 0.8222 0.8149 0.9839 0.9691 0.9855
    MLA-Net[24] 0.8279 0.8046 0.9805 0.9581 0.9827
    SA-UNet[25] 0.8263 0.8212 0.9840 0.9698 0.9864
    ConvMixer[26] 0.8245
    GCFF-Net 0.8290 0.8345 0.9739 0.9573 0.9813
    下载: 导出CSV

    表  4  不同算法在CHASEDB1数据集上的性能指标

    AlgorithmF1SESPACCAUC
    R2U-Net[20]0.79280.77560.98200.96340.9815
    DU-Net[21]0.80010.81150.97520.96100.9804
    RSAN[23]0.81110.84860.98360.97510.9804
    MLA-Net[24]0.82480.80420.98010.96730.9824
    SA-UNet[25]0.81530.85730.98350.97550.9905
    DEU-Net[27]0.80370.80740.98210.96610.9812
    GCFF-Net0.83790.84270.97910.96400.9878
    下载: 导出CSV

    表  5  不同算法在STARE数据集上的性能指标

    Algorithm F1 SE SP ACC AUC
    MLA-Net[24] 0.7965 0.7925 0.9812 0.9649 0.9826
    MAU-Net[28] 0.7826 0.7536 0.9808 0.9581 0.9721
    Res2Unet[29] 0.7858 0.7392 0.9865 0.9650 0.9709
    文献[30] 0.7878 0.7381 0.9871 0.9655 0.9823
    文献[31] 0.7947 0.8230 0.9945 0.9641 0.9620
    GCFF-Net 0.8063 0.7786 0.9814 0.9595 0.9836
    下载: 导出CSV

    表  6  消融实验结果

    DatasetmodelF1SESPACCAUC
    DRIVEA10.82480.82130.97510.95550.9773
    A20.82620.83130.97300.95600.9779
    A30.82780.83420.97410.95710.9810
    A40.82900.83450.97390.95730.9813
    CHASEDB1A10.82240.82130.97820.96090.9837
    A20.83550.84550.97790.96290.9865
    A30.83640.84640.97800.96350.9872
    A40.83790.84270.97910.96400.9878
    STAREA10.80020.72850.98960.96320.9807
    A20.80150.76920.98170.95870.9822
    A30.80380.77540.98130.95900.9829
    A40.80630.77860.98140.95950.9836
    下载: 导出CSV
  • [1] 李兰兰, 张孝辉, 牛得草, 等. 深度学习在视网膜血管分割上的研究进展[J]. 计算机科学与探索, 2021, 15(11): 2063-2076. doi:  10.3778/j.issn.1673-9418.2103099

    LI L L, ZHANG X H, NIU D C, et al. Research progress of deep learning in retinal vessel segmentation[J]. Journal of Frontiers of Computer Science and Technology, 2021, 15(11): 2063-2076. doi:  10.3778/j.issn.1673-9418.2103099
    [2] MENDONÇA A M, CAMPILHO A. Segmentation of retinal blood vessels by combining the detection of centerlines and morphological reconstruction[J]. IEEE Trans Med Imaging, 2006, 25(9): 1200-1213. doi:  10.1109/TMI.2006.879955
    [3] YU Q Z, WANG X H, WANG X F, et al. Retinal vessels segmentation based on level set and region growing[J]. Pattern Recognition, 2014, 47(7): 2437-2446. doi:  10.1016/j.patcog.2014.01.006
    [4] JIANG Z, ZHANG H, WANG Y, et al. Retinal blood vessel segmentation using fully convolutional network with transfer learning[J]. Comput Med Imaging Graph, 2018, 68: 1-15. doi:  10.1016/j.compmedimag.2018.04.005
    [5] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2015: 3431-3440.
    [6] LI L Z, VERMA M, NAKASHIMA Y, et al. IterNet: Retinal image segmentation utilizing structural redundancy in vessel networks[C]//Proceedings of the IEEE Winter Conference on Applications of Computer Vision. New York: IEEE, 2020: 3656-3665.
    [7] DU X F, WANG J S, SUN W Z. UNet retinal blood vessel segmentation algorithm based on improved pyramid pooling method and attention mechanism[J]. Physics in Medicine and Biology, 2021, 66(17): 175013. doi:  10.1088/1361-6560/ac1c4c
    [8] 梁礼明, 蓝智敏, 盛校棋, 等. 融合轮廓信息与条件生成对抗的视网膜血管分割[J]. 生物医学工程学杂志, 2021, 38(2): 276-285. doi:  10.7507/1001-5515.202005019

    LIANG L M, LAN Z M, SHENG X Q, et al. Segmentation of retinal vessels by fusing contour information and conditional generative adversarial[J]. Journal of Biomedical Engineering, 2021, 38(2): 276-285. doi:  10.7507/1001-5515.202005019
    [9] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63(11): 139-144. doi:  10.1145/3422622
    [10] CHOLLET F. Xception: Deep learning with depthwise separable convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017: 1251-1258.
    [11] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 7132-7141.
    [12] 蒋芸, 刘文欢, 梁菁. 联合注意力和Transformer的视网膜血管分割网络[J]. 计算机工程与科学, 2022, 44(11): 2037-2047.

    JIANG Y, LIU W H, LIANG J. Retinal vessel segmentation network with joint attention and Transformer[J]. Computer Engineering & Science, 2022, 44(11): 2037-2047.
    [13] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[J]. Advances in Neural Information Processing Systems, 2017, 30: 6000-6010.
    [14] RONNEBERGER O, FISCHER P, BROX T. U-net: Convolutional networks for biomedical image segmentation[M]//Lecture Notes in Computer Science. Cham: Springer International Publishing, 2015.
    [15] KIPF T, WELLING M. Semi-supervised classification with graph convolutional networkshttps[EB/OL]. [2023-03-10]. https://arxiv.org/pdf/1609.02907.
    [16] HAN K, WANG Y, GUO J, et al. Vision GNN: An image is worth graph of nodes[EB/OL]. [2023-03-24]. https://arxiv.org/pdf/2206.00272v1.
    [17] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]//European Conference on Computer Vision. Cham: Springer, 2018: 3-19.
    [18] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Trans Pattern Anal Mach Intell, 2018, 40(4): 834-848. doi:  10.1109/TPAMI.2017.2699184
    [19] OKTAY O, SCHLEMPER J, LE FOLGOC L, et al. Attention U-Net: Learning where to look for the pancreas[EB/OL]. [20223-03-20]. https://arxiv.org/pdf/1804.03999.
    [20] ALOM M Z, YAKOPCIC C, HASAN M, et al. Recurrent residual U-Net for medical image segmentation[J]. Journal of Medical Imaging, 2019, 6(1): 014006.
    [21] JIN Q G, MENG Z P, PHAM T D, et al. DUNet: A deformable network for retinal vessel segmentation[J]. Knowledge-Based Systems, 2019, 178(C): 149-162.
    [22] LI D, DHARMAWAN D A, NG B P, et al. Residual U-net for retinal vessel segmentation[C]//Proceedings of the IEEE International Conference on Image Processing. New York: IEEE, 2019: 1425-1429.
    [23] GUO C L, SZEMENYEI M, YI Y G, et al. Residual spatial attention network for retinal vessel segmentation[C]//Proceedings of the Neural Information Processing: 27th International Conference. New York: ACM, 2020: 509-519.
    [24] YUAN Y, ZHANG L, WANG L, et al. Multi-level attention network for retinal vessel segmentation[J]. IEEE J Biomed Health Inform, 2022, 26(1): 312-323. doi:  10.1109/JBHI.2021.3089201
    [25] GUO C L, SZEMENYEI M, YI Y G, et al. SA-UNet: Spatial attention U-net for retinal vessel segmentation[C]//Proceedings of the 25th International Conference on Pattern Recognition. New York: IEEE, 2021: 1236-1242.
    [26] SOLANO A, DIETRICH K N, MARTÍNEZ-SOBER M, et al. Deep learning architectures for diagnosis of diabetic retinopathy[J]. Applied Sciences, 2023, 13(7): 4445. doi:  10.3390/app13074445
    [27] WANG B, QIU S, HE H G. Dual encoding U-net for retinal vessel segmentation[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2019: 84-92.
    [28] LI H, WANG Y K, WAN C, et al. MAU-net: A retinal vessels segmentation method[C]//Proceedings of the 42nd Annual International Conference of the IEEE Engineering in Medicine & Biology Society. New York: IEEE, 2020: 1958-1961.
    [29] LI X J, DING J Q, TANG J J, et al. Res2Unet: A multi-scale channel attention network for retinal vessel segmentation[J]. Neural Computing and Applications, 2022, 34(14): 12001-12015. doi:  10.1007/s00521-022-07086-8
    [30] ZHANG Y, FANG J, CHEN Y, et al. Edge-aware U-net with gated convolution for retinal vessel segmentation[J]. Biomedical Signal Processing and Control, 2022, 73: 103472. doi:  10.1016/j.bspc.2021.103472
    [31] WANG C, ZHAO Z Y, YU Y. Fine retinal vessel segmentation by combining Nest U-net and patch-learning[J]. Soft Computing, 2021, 25(7): 5519-5532. doi:  10.1007/s00500-020-05552-w
  • [1] 张桃红, 郭学强, 郑瀚, 罗继昌, 王韬, 焦力群, 唐安莹.  Dual-Path Vision Transformer用于急性缺血性脑卒中辅助诊断 . 电子科技大学学报, 2024, 53(2): 307-314. doi: 10.12178/1001-0548.2023081
    [2] 张雅斓, 董子瑞, 杜飞龙, 魏云, 卢瑞东, 班晓娟.  混合音频下心率信号感知的放松状态评估模型 . 电子科技大学学报, 2023, 52(2): 289-295. doi: 10.12178/1001-0548.2022366
    [3] 刘丽娜, 王韬, 周一飞, 程志炯, 李方硕, 张昱航, 徐杰.  基于神经网络的配网电气拓扑识别算法 . 电子科技大学学报, 2023, 52(2): 247-253. doi: 10.12178/1001-0548.2022072
    [4] 毛文清, 徐雅斌.  基于深度图卷积网络的社交机器人识别方法 . 电子科技大学学报, 2022, 51(4): 615-622, 629. doi: 10.12178/1001-0548.2021280
    [5] 周丰丰, 牛甲昱.  细胞穿膜肽识别问题的多特征融合卷积网络预测算法 . 电子科技大学学报, 2022, 51(4): 494-499. doi: 10.12178/1001-0548.2021391
    [6] 王兆滨, 马一鲲, 崔子婧.  基于引导滤波与稀疏表示的医学图像融合 . 电子科技大学学报, 2022, 51(2): 264-273. doi: 10.12178/1001-0548.2021165
    [7] 赵学功, 邓佳坤, 魏浩然, 彭真明.  基于卷积神经网络的眼底图像微血管瘤检测方法 . 电子科技大学学报, 2021, 50(6): 915-920. doi: 10.12178/1001-0548.2021186
    [8] 郜东瑞, 周晖, 冯李逍, 张云霞, 彭茂琴, 张永清.  基于特征融合和粒子群优化算法的运动想象脑电信号识别方法 . 电子科技大学学报, 2021, 50(3): 467-475. doi: 10.12178/1001-0548.2020107
    [9] 赵夫群, 戴翀, 耿国华.  基于特征融合的文物碎片模型检索 . 电子科技大学学报, 2021, 50(2): 225-230. doi: 10.12178/1001-0548.2020281
    [10] 候少麒, 梁杰, 殷康宁, 刘学婷, 殷光强.  基于空洞卷积金字塔的目标检测算法 . 电子科技大学学报, 2021, 50(6): 843-851. doi: 10.12178/1001-0548.2021032
    [11] 谭露露, 张鑫鑫, 周银座.  多特性融合图卷积方法的分子生物活性预测 . 电子科技大学学报, 2021, 50(6): 921-929. doi: 10.12178/1001-0548.2021158
    [12] 吴睿智, 朱大勇, 王春雨, 秦科.  基于图卷积神经网络的位置语义推断 . 电子科技大学学报, 2020, 49(5): 739-744. doi: 10.12178/1001-0548.2020152
    [13] 董帅, 李文生, 张文强, 邹昆.  基于多视图循环神经网络的三维物体识别 . 电子科技大学学报, 2020, 49(2): 269-275. doi: 10.12178/1001-0548.2019017
    [14] 王振松, 刘晓云, 陈武凡.  特征点对引导的医学图像弹性配准方法 . 电子科技大学学报, 2012, 41(3): 471-476. doi: 10.3969/j.issn.1001-0548.2012.03.029
    [15] 雷刚, 蒲亦菲, 张卫华, 周激流.  张量典型相关分析及其在人脸识别中的应用 . 电子科技大学学报, 2012, 41(3): 435-440. doi: 10.3969/j.issn.1001-0548.2012.03.022
    [16] 曹宗杰, 庞伶俐, 皮亦鸣.  融合区域和边界信息的水平集SAR图像分割方法 . 电子科技大学学报, 2008, 37(3): 325-327,353.
    [17] 张洁, 蒋宁, 浦立新.  基于小波变换的医学图像融合技术 . 电子科技大学学报, 2005, 34(6): 839-842.
    [18] 马义德, 李廉, 戴若兰.  基于细胞逻辑、形态特征图像分割新算法 . 电子科技大学学报, 2002, 31(1): 84-87.
    [19] 居琰, 汪同庆, 彭建, 王贵新, 刘建胜, 袁祥辉.  特征融合用于手写体汉字识别研究 . 电子科技大学学报, 2002, 31(3): 229-233.
    [20] 汪天富, 郑昌琼, 李德玉.  基于神经网络的超声医学图像自动分割 . 电子科技大学学报, 1997, 26(4): 366-368.
  • 加载中
图(10) / 表(6)
计量
  • 文章访问数:  1104
  • HTML全文浏览量:  410
  • PDF下载量:  24
  • 被引次数: 0
出版历程
  • 收稿日期:  2023-05-10
  • 修回日期:  2024-03-21
  • 录用日期:  2024-02-24
  • 网络出版日期:  2024-05-30
  • 刊出日期:  2024-05-30

面向视网膜血管精细分割的多层级图卷积特征融合神经编解码网络

doi: 10.12178/1001-0548.2023131
    基金项目:  国家自然科学基金(62003065);重庆市科技局自然基金面上项目(CSTB2022NSCQ-MSX1206);重庆市技术预见与制度创新项目(CSTB2022TFII-OFX0042);教育部人文社科规划基金(22YJA870005);重庆市教委重点项目(KJZD-K202200510);重庆市社会科学规划项目(2022NDYB119);重庆市教委人文社科项目(23SKGH072);重庆师范大学人才基金(20XLB004)
    作者简介:

    崔少国,博士,教授,主要从事大数据与人工智能等方面的研究

    通讯作者: 崔少国,E-mail:ailabcui@163.com
  • 中图分类号: TP391.41

摘要: 眼底视网膜血管分割可以帮助医生对眼科疾病以及心脑血管疾病进行辅助诊断。然而,由于血管拓扑结构复杂,边界不清晰,分割难度增大。针对这些问题,在U型结构的基础上提出了一种基于图卷积特征融合网络。该网络使用图卷积模块对编码器特征中像素之间的全局上下文信息进行建模,弥补普通卷积缺少全局建模的能力;然后使用多尺度特征融合模块对编码器特征与解码器特征进行融合,减少特征层中噪声信息对分割结果的影响;最后使用多层次特征融合模块将解码器每一层特征融合输出,减少下采样过程中空间信息的缺失以及对深层特征的复用。在公开数据集DRIVE、CHASEDB1以及STARE上进行验证,F1值和AUC值均优于其他两个模型。

English Abstract

崔少国, 张乐迁, 文浩. 面向视网膜血管精细分割的多层级图卷积特征融合神经编解码网络[J]. 电子科技大学学报, 2024, 53(3): 404-413. doi: 10.12178/1001-0548.2023131
引用本文: 崔少国, 张乐迁, 文浩. 面向视网膜血管精细分割的多层级图卷积特征融合神经编解码网络[J]. 电子科技大学学报, 2024, 53(3): 404-413. doi: 10.12178/1001-0548.2023131
CUI Shaoguo, ZHANG Leqian, WEN Hao. Multilayer Graph Convolutional Feature Fusion Neural Encoding and Decoding Network for Fine Segmentation of Retinal Vessels[J]. Journal of University of Electronic Science and Technology of China, 2024, 53(3): 404-413. doi: 10.12178/1001-0548.2023131
Citation: CUI Shaoguo, ZHANG Leqian, WEN Hao. Multilayer Graph Convolutional Feature Fusion Neural Encoding and Decoding Network for Fine Segmentation of Retinal Vessels[J]. Journal of University of Electronic Science and Technology of China, 2024, 53(3): 404-413. doi: 10.12178/1001-0548.2023131
  • 糖尿病、高血压以及各种眼部疾病都会造成眼底血管几何形态的变化[1]。在临床研究中,视网膜血管分割对医生诊断相关疾病具有重要意义。然而由于视网膜血管拓扑结构复杂以及本身成像的限制,人为分割血管的难度较高,因此,提出一种高效、准确的视网膜血管分割方法非常重要。

    近些年,视网膜血管自动分割算法从早期的无监督方法慢慢过渡到如今的有监督方法,这都归功于深度学习领域中卷积神经网络的飞速发展。在无监督算法中,主要是依据视网膜血管的一些物理特征(形状、颜色与纹理)或人为定义的特征来对血管进行分割。文献[2]首先确定血管中心线,用作血管填充的依据,然后依据4个方向的差分算子来判断周围像素点是否作为中心线像素的候选点,最后通过迭代区域生长方法得到分割结果。文献[3]提出了一种基于水平集和区域生长的视网膜血管分割方法,首先通过自适应直方图均衡与2D Gabor小波变换进行数据增强,然后使用各向异性扩散滤波器提取血管边界特征并平滑图像,最后使用区域生长方法和基于区域的活动轮廓模型分割视网膜血管。

    相较于无监督方法,有监督方法虽然需要人工对数据进行标注,但也取得了更高的分割准确度。文献[4]将典型的视网膜血管分割问题从全尺寸图像分割简化为区域血管元素识别,并且使用经过预训练的AlexNet作为FCN[5]的特征提取骨干网络,最终很好地实现了血管像素的端到端分割。虽然FCN不限制输入网络的图像大小,但由于下采样操作造成空间信息的损失以及对卷积平移不变性的破坏,导致分割的血管出现断裂。文献[6]通过迭代mini-UNet增加网络深度,提升了模型分割血管细节的能力。文献[7]对金字塔池化进行改进,并在跳跃连接处加入注意力机制,有效地减少特征信息的损失。文献[8]在生成对抗网络GAN[9]的基础上,首先对眼底图像进行非均匀光照移除和主成分分析,然后将带偏移量的深度可分离卷积[10]和SE模块[11]同时加到生成器与判别器中,有效地减少了分割结果中血管断裂的现象。文献[12]将Transformer[13]架构引入到U-net中,通过对编码阶段特征的通道信息和位置信息联合关注增强编码局部细节特征,提高了网络对血管特征的敏感度。上述基于U型架构的网络模型受限于卷积核大小的限制,不能对全局信息进行建模,并且在下采样过程中会造成空间信息的损失,从而造成分割结果中出现血管边界不清晰或出现噪声等现象。

    针对以上问题,本文提出了一种基于图卷积的多层级特征融合网络的视网膜血管分割算法。

    • 本文在U形编码器−解码器[14]架构的基础上,提出一种图卷积多层级特征融合的眼底视网膜血管分割网络(Retinal Vessels Segmentation Algorithm Based on Graph Convolutional Feature Fusion Network, GCFF-Net)。网络结构如图1所示。

      图  1  方法结构图

      该网络主要由4部分组成,分别为U型编解码器、图卷积模块、多尺度特征融合模块以及多层次特征融合模块。编码器的每一层有两个3×3的卷积层提取特征,在两层之间使用最大池化层进行下采样,在降低图像分辨率的同时增加特征图所蕴含的语义信息。在编码器与解码器之间的跳跃连接处加入图卷积模块,通过K−近邻算法将编码器提取到的特征图转化为图结构,并使用图卷积进行特征变换,对图像的全局上下文信息进行建模,并捕获像素之间的长距离依赖关系,减少分割结果中出现血管断裂的现象。解码器的每一层主要由一个多尺度特征融合模块与两个3×3的卷积层组成,多尺度特征融合模块通过计算图卷积特征层与普通卷积层特征的通道注意力权重对两种特征进行融合,对特征层中的噪声信息进行抑制并注重血管的特征信息,可以有效地减少分割结果中噪声的出现。解码器的每一层之间使用双线性插值算法代替转置卷积进行上采样来减少模型参数量。多层次特征融合模块将解码器每一层首先通过空洞卷积层提取不同尺度特征,然后经过sigmoid激活与1×1卷积层变换通道数,最后使用双线性插值将特征图上采样至输入图像大小并在通道内拼接,以此来减少编码器下采样过程中空间信息的损失,并对深层特征加以复用。模型的输出是将融合后的多层次特征经过1×1卷积与softmax激活得到最后的分割概率图。

    • 图卷积网络(Graph Convolutional Networks, GCN)是一种针对图结构数据的深度学习模型,可以用于节点分类、图分类、链接预测等任务。GCN[15]的核心思想是将卷积运算扩展到图结构数据,通过对邻居节点的信息进行聚合,实现节点的特征更新。文献[16]提出一种新型视觉GNN(ViG)架构。ViG首先将图像分割成一组形状规则的补丁,并将每个补丁视为一个图节点,通过K近邻算法找到每个节点的K个最近邻居作为图的边,然后在每个节点上进行图卷积操作学习节点特征。基于此,本文在编码器与解码器之间加入GCN模块,将编码器特征图的每个像素都当作一个图节点,使用K邻近算法构图,通过图卷积操作捕获全局特征信息。GCN模块架构如图2所示。

      图  2  图卷积模块

      GCN模块包含图构造与图卷积计算两个部分。

      1)图构造。首先使用reshape函数将编码器层的特征$ {\boldsymbol{X}} \in {\mathbb{R}^{H \times W \times C}} $转换为图节点矩阵$ {{\boldsymbol{X}}{'}} \in {\mathbb{R}^{H \times W \times C}} $。然后使用K近邻算法得出两两节点之间的距离,选择每个节点距离最近的K个节点作为该节点的相邻节点,由此可以得到邻接矩阵A

      2)图卷积计算。本文使用拉普拉斯矩阵来定义图卷积。对于一个无向图$ \varsigma = \left\{ {\nu ,\varepsilon } \right\} $A代表邻接矩阵,D代表度矩阵,$ {D_{ii}} = \sum\limits _j^N{A_{ij}} $$ {\boldsymbol{L}} = {\boldsymbol{I}} - {{\boldsymbol{D}}^{ - 1/2}} \times {\boldsymbol{A}}{{\boldsymbol{D}}^{ - 1/2}} $表示对$ \varsigma $进行归一化操作的拉普拉斯矩阵。L可以分解为$ {\boldsymbol{L}} = {\boldsymbol{U}}{\boldsymbol{\varLambda }}{{\boldsymbol{U}}^{\mathrm{T}}} $,其中U为特征向量矩阵,$ {\boldsymbol{\varLambda }}= {\mathrm{diag}}[{\lambda _1}, {\lambda _2},\cdots ,{\lambda _n}] $为特征值矩阵。图卷积网络(GCN)引入ChebNet的一阶近似$ (K = 1) $。GCN迭代的聚合来自邻居节点的信息。关于节点$ {v_i} $的前向传播过程为:

      $$ {h_i}^{(l + 1)} = \sigma \left(\sum\limits_{{v_j} \in \mathcal{N}({v_i}) \cup \{ {v_i}\} } {\hat a({v_i},{v_j}){{\boldsymbol{W}}^{(l)}}{h_j}^{(l)}} \right) $$ (1)

      式中,$ \sigma ( \cdot ) $为非线性激活函数;$ \hat A = (\hat a({v_i},{v_j})) $表示重新归一化的邻接矩阵A$ {{\boldsymbol{W}}^{(l)}} $表示第$ l $层的可学习变换矩阵。

    • 在U-Net中,Skip-connection解决的问题主要是如何在编码器和解码器之间进行信息传递和整合,以提高模型对于目标的分割精度。然而,仅仅使用简单的跳跃连接无法去除编码器与解码器特征中的噪声信息,并且还会丢失一部分血管信息。因此,本文提出一种多尺度特征融合模块,增加特征图中血管特征的权重,并减少噪声的权重,使编码器与解码器之间特征更好的融合。其结构如图3所示。

      图  3  多尺度特征融合模块

      $ {x_{{\mathrm{en}}}} $$ {x_{{\mathrm{de}}}} $分别为编码器与解码器的特征图,$ x'_{{\mathrm{en}}} $$ x'_{{\mathrm{de}}} $是经过权重计算后的特征图。首先,$ {x_{{\mathrm{en}}}} $$ {x_{{\mathrm{de}}}} $分别通过最大池化和的平均池化聚合特征图的空间信息[17],然后经过1$ \times $1卷积变换通道维度,最后拼接在一起经过softmax层得到权重系数矩阵$ {\boldsymbol{\alpha}} $。最后得到的编码器特征与解码器特征计算过程为:

      $$ x'_{{\mathrm{en}}} = {\alpha _0} \circ {x_{{\mathrm{en}}}} $$ (2)
      $$ x'_{{\mathrm{de}}} = {\alpha _1} \circ {x_{{\mathrm{de}}}} $$ (3)

      式中,$ \circ $为哈达玛积;$ {\alpha _0} $$ {\alpha _1} $分别为权重系数矩阵$ \alpha $的第一、二个通道;$ \alpha $的计算公式为:

      $$ {\alpha _0} = {\mathrm{Conv}}[{\mathrm{cat}}({\mathrm{avgpool}}({x_{{\mathrm{en}}}}),{\mathrm{maxpool}}({x_{{\mathrm{en}}}}))] $$ (4)
      $$ {\alpha _1} = {\mathrm{Conv}}[{\mathrm{cat}}({\mathrm{avgpool}}({x_{{\mathrm{de}}}}),{\mathrm{maxpool}}({x_{{\mathrm{de}}}}))] $$ (5)
      $$ \alpha = {\mathrm{softmax}}({\mathrm{cat}}({\alpha _0},{\alpha _1})) $$ (6)
    • 在U-Net中,编码器通过多次下采样和卷积操作,逐步提取出图像的高级特征,而解码器则通过多次上采样或转置卷积操作,将这些特征转换成分割结果。然而,在这个过程中,随着特征图分辨率不断减小,在增加语义信息的同时会造成空间信息的损失,因此,解码器需要在重建图像时从编码器中获取更多的上下文信息,以提高分割的准确性。基于此,本文提出多层次特征融合模块,其结构如图4所示。

      为弥补下采样过程中空间信息的损失以及充分利用解码器每一层的特征信息,该模块首先通过使用不同空洞率的卷积层[18]来提取不同尺度的特征,每一层的空洞率分别为16,8,4,2,1,再通过sigmoid激活函数得到特征权重$ \alpha $,特征层x$ \alpha $相乘得到该层解码器输出,然后通过1$ \times $1卷积与上采样将解码器每一层的输出投射到相同的特征空间,每一层的上采样率分别为1,2,4,8,16,即:

      $$ \hat x_{{\mathrm{de}}-{\mathrm{out}}}^i = {\mathrm{upsampling}}(x_{{\mathrm{de}}-{\mathrm{out}}}^i)\;\;\;\;i = 1,2,3,4,5 $$ (7)

      最后将每一层输出在通道维度拼接起来得到多层次特征融合层。

      图  4  多层次特征融合模块

    • 本文实验环境为基于12th Gen Intel(R) Core(TM) i7-12700 @ 2.10 GHz CPU 16 G内存,显卡为NVIDIA RTX A4000 GPU 16 G,Windows 10系统。该模型代码基于Pytroch深度学习框架,训练过程中初始学习率为0.0005,选用的优化器为Adam,损失函数设置为交叉熵损失加上DICE损失的联合损失,根据显卡性能选择送入网络的图片批量大小batch_size为16,使用余弦退火算法作为学习率衰减策略。此外若连续10个epoch未取得最优,则停止训练。

    • 本实验采用的数据集包括DRIVE、STARE以及CHASEDB1。DRIVE数据集的照片来自荷兰的糖尿病视网膜病变筛查项目,其中包含40幅图像,每幅图像大小为768×584。STARE数据集来自加州大学圣地亚哥分校,包含20幅大小为605×700的图像。CHASEDB1数据集包含28幅大小为999×960像素的彩色视网膜图像,这些图像采集自14名学童的左眼和右眼。每幅图像都由两位独立的专家注释。

      由于在视网膜血管图像中,绿色通道图像的血管与背景对比度较高,因此将原图分离为RGB三通道特征图并进行加权处理,然后使用直方图均衡化将视网膜图像的直方图近似均匀分布,从而增强图像的对比度,最后进行Gamma变换,更有效的保留图像亮度信息。为防止神经网络出现欠拟合现象,在本次研究中,3个数据集都只有几十张图片,因此需要对数据集进行扩充:对输入图像进行随机水平、垂直翻转,分块。本实验将训练图像以及标签切分为64×64大小的像素块,每个像素块间隔16个像素点。最终预处理结果如图5所示。

      图  5  数据预处理最终结果

    • 为了定量评估本文模型的分割性能,使用F1-score、准确率ACC、ROC曲线下的AUC面积、特异性SP(正确分类非血管像素占总体非血管像素的比例)、灵敏性SE(正确分类血管像素占总体血管像素的比例)作为评价指标:

      $$ {\mathrm{F1}} = \frac{{2 {\mathrm{TP}}}}{{2 {\mathrm{TP}} + {\mathrm{FP}} + {\mathrm{FN}}}} $$ (8)
      $$ {\mathrm{ACC}}=\frac{{\mathrm{TP}}+{\mathrm{TN}}}{{\mathrm{TP}}+{\mathrm{FP}}+{\mathrm{TN}}+{\mathrm{FN}}} $$ (9)
      $$ {\mathrm{SE}} = \frac{{{\mathrm{TP}}}}{{{\mathrm{TP}} + {\mathrm{FN}}}} $$ (10)
      $$ {\mathrm{SP}} = \frac{{{\mathrm{TN}}}}{{{\mathrm{TN}} + {\mathrm{FP}}}} $$ (11)

      式中,TP、TN、FP、FN分别为真阳性、真阴性、假阳性、假阴性。

    • 为了验证本文算法在视网膜血管图像上的分割性能,将GCFF-Net与U-Net、Attention U-Net[19]两个模型在DRIVE、CHASEDB1、STARE这3个数据集上进行比较,对比实验采用相同的实验环境。性能指标对比与分割效果对比分别如表1表2所示。

      表 1  不同模型在DRIVE、CHASEDB1和STARE上的性能指标比较

      数据集 Model F1 SE SP ACC AUC(ROC)
      DRIVE U-Net 0.8248 0.8213 0.9751 0.9555 0.9773
      Attention U-Net 0.8254 0.8389 0.9717 0.9548 0.9805
      GCFF-Net(本文) 0.8290 0.8345 0.9739 0.9573 0.9813
      CHASEDB1 U-Net 0.8224 0.8213 0.9782 0.9609 0.9837
      Attention U-Net 0.8328 0.8320 0.9778 0.9631 0.9873
      GCFF-Net(本文) 0.8379 0.8427 0.9791 0.9640 0.9878
      STARE U-Net 0.8002 0.7285 0.9896 0.9632 0.9807
      Attention U-Net 0.8032 0.7546 0.9860 0.9626 0.9821
      GCFF-Net(本文) 0.8063 0.7786 0.9814 0.9595 0.9836

      表 2  不同模型复杂度对比

      model Params/M Times/ms
      U-Net 34.5259 3.4007
      Attention-Unet 34.8774 6.4478
      GCFF-Net(本文) 34.8793 10.1559
    • 表1可知,由于Attention U-Net在U-Net的基础上加入了基于网格的注意力门机制,增加了模型对前景像素的敏感度,在表1中DRIVE和CHASEDB1数据集体现为SE指标的上升,在一定程度上提高了提取血管像素的能力,然而Attention U-Net过于注重前景像素会造成过度分割的问题,即将背景像素错误分类为前景像素,从而导致SP指标的下降。本文算法在SE与SP指标上都取得了较高的得分,且F1值与AUC值在3个数据集上均优于其他方法,说明本文算法的分割结果与金标准的相似程度最高。

      图6图7图8分别为上述3个网络模型在DRIVE、CHASEDB1和STARE数据集上的ROC曲线与PR曲线,可以看出本文算法较其他模型的AUC(ROC)值与AUC(PR)值分别平均高出0.24%、0.63%、0.22%和0.23%、1.13%、0.93%,说明本文算法分割血管的能力优于其他网络。

      图  6  不同模型在DRIVE数据集上ROC曲线与PR曲线对比图

      图  7  不同模型在CHASEDB1数据集上ROC曲线与PR曲线对比图

      图  8  不同模型在STARE数据集上ROC曲线与PR曲线对比图

    • 图9从DRIVE、CHASEDB1和STARE这3个数据集中分别挑选出一张图片进行分割效果对比,每幅图片都有两个对比的矩形局部区域。图中第一行DRIVE数据集的分割结果中,由于血管末端的小血管太薄,U-Net与Attention U-Net都将部分背景像素分类成血管像素,导致局部分割图中出现些许噪声。这是因为这两种算法直接将编码器特征与解码器特征拼接,无法去除卷积层提取到的特征中的噪声信息,而本文算法在跳跃连接处加入的多尺度特征融合模块,可以有效减少编码器与解码器特征中的噪声信息,同时增加血管特征的权重,从而避免分割结果中噪声的出现。图中第二行CHASEDB1数据集的分割结果中,因为光照不足或过度曝光,使得图像对比度降低,进而造成视网膜血管边界不清晰和血管信息丢失。从矩形局部分割图中可以看出,U-Net与Attention U-Net使用普通卷积只能提取局部特征,虽然Attention U-Net在卷积层中加入注意力机制提升了提取血管像素的能力,缓解了血管断裂的问题,但也引入了少许噪声,而本文算法在编码器与解码器之间加入图卷积模块,来捕获血管像素之间的长距离依赖关系,从而有效减少分割结果中血管断裂的现象。图中第三行STARE数据集中,对比区域为视盘区域,是整幅图像中血管最集中的地方,该处的血管分割难度更大。虽然U-Net与Attention U-Net可以很好地分割出血管轮廓,但也出现了血管边界不清晰的问题,这是由于编码器在下采样过程中会丢失空间信息,而本文算法提出的多层次特征融合模块可以有效弥补空间信息的损失以及充分利用编解码器每一层的特征,在血管拓扑结构复杂的情况下,依然能够准确地分割出血管结构。

      图  9  不同模型分割效果对比图

      综上所述,本文算法在DRIVE、CHASEDB1与STARE数据集上都取得了优良的分割结果,分割出的血管结构更加清晰,不易出现血管断裂的现象,位于血管末端的小血管也能实现较为精确的分割。同时在由于光照不足造成图像对比度低的情况下,本文算法也能避免伪影的干扰,捕获完整的血管。实验结果证明,本文算法能出色地完成视网膜血管分割的任务。

    • 本节主要从时间复杂度与空间复杂度两个方面对模型的复杂度进行分析。其中空间复杂度主要通过模型的参数量来衡量;时间复杂度通过将(1,1,64,64)大小的张量输入模型,并迭代100次,最后计算平均每次迭代所使用的时间。

      表2可知,本文提出的模型相较于U-Net参数量仅增加了1.02%,且与Attention-UNet的参数量相差无几。在模型的推理速度方面,由于本模型的图卷积模块中使用K近邻算法计算每个像素之间的距离来达到构图的目的,因此推理时间较UNet与Attention-UNet有所增加。

    • 为了进一步验证本文算法在视网膜血管上的分割能力,选择了近几年的先进算法在F1、SE、SP、ACC、AUC这5个指标上进行对比,对比结果如表3表5所示。MLA-Net提出自适应通道注意力模块对特征通道赋以权重,以此来减少特征中冗余的信息,但其SE值在3个数据集上均低于本文,且在CHASEDB1与STARE数据集上的F1值与AUC值也低于本文,其中F1值分别比本文低0.11%和1.31%,AUC值分别比本文低0.66%和0.10%,说明多尺度特征融合模块对特征图血管噪声的抑制要强于自适应通道注意力模块。DU-Net使用可变形卷积代替U-Net中的传统卷积,从而学习局部、密集和自适应感受野来模拟各种形状和尺度的视网膜血管。虽然,可变形卷积可以依据输入图像改变卷积核的感受野,但依然很难关注到血管这样细小的结构,而本文所使用的图卷积模块通过捕获血管像素之间的长距离依赖关系,可以更好地关注血管的结构信息,因此本文算法在DRIVE与CHASEDB1数据集上的各指标均高于DU-Net。ConvMixer借用ViT的思想。将输入图像划分为补丁,并使用深度卷积与点卷积分别在空间和通道维度上混合提取的特征,然而其F1值仍低于本文算法,且该模型在整个网络中保持相同的大小和分辨率,虽然有利于减少上采样与下采样所造成的信息损失,但也增加了模型的参数量与计算开销。SA-Unet引入空间注意力模块使特征图自适应特征细化,使模型更加关注血管特征,但其SE值比本文低1.33%,说明其提取血管特征的能力弱于本文所提出的多尺度特征融合模块。综合表3表5可知,本文算法的分割性能优于其他网络,尤其是F1值在3个数据集上都达到最优,体现了本文算法更加稳健。

      表 3  不同算法在DRIVE数据集上的性能指标

      Algorithm F1 SE SP ACC AUC
      R2U-Net[20] 0.8150 0.7735 0.9818 0.9553 0.9784
      DUNet[21] 0.8237 0.7963 0.9721 0.9566 0.9820
      MResU-Net[22] 0.8237 0.7969 0.9799 -- 0.9799
      RSAN[23] 0.8222 0.8149 0.9839 0.9691 0.9855
      MLA-Net[24] 0.8279 0.8046 0.9805 0.9581 0.9827
      SA-UNet[25] 0.8263 0.8212 0.9840 0.9698 0.9864
      ConvMixer[26] 0.8245
      GCFF-Net 0.8290 0.8345 0.9739 0.9573 0.9813

      表 4  不同算法在CHASEDB1数据集上的性能指标

      AlgorithmF1SESPACCAUC
      R2U-Net[20]0.79280.77560.98200.96340.9815
      DU-Net[21]0.80010.81150.97520.96100.9804
      RSAN[23]0.81110.84860.98360.97510.9804
      MLA-Net[24]0.82480.80420.98010.96730.9824
      SA-UNet[25]0.81530.85730.98350.97550.9905
      DEU-Net[27]0.80370.80740.98210.96610.9812
      GCFF-Net0.83790.84270.97910.96400.9878

      表 5  不同算法在STARE数据集上的性能指标

      Algorithm F1 SE SP ACC AUC
      MLA-Net[24] 0.7965 0.7925 0.9812 0.9649 0.9826
      MAU-Net[28] 0.7826 0.7536 0.9808 0.9581 0.9721
      Res2Unet[29] 0.7858 0.7392 0.9865 0.9650 0.9709
      文献[30] 0.7878 0.7381 0.9871 0.9655 0.9823
      文献[31] 0.7947 0.8230 0.9945 0.9641 0.9620
      GCFF-Net 0.8063 0.7786 0.9814 0.9595 0.9836
    • 使用K近邻算法构造图时,邻居节点的数量K是一个控制聚集范围的超参数。邻居太少会降低信息交换的质量,而邻居节点太多会降低每个节点特征的独特性。为了得到最优的K值,在DRIVE数据集上将K设置从1调优到7,由图10可知,当邻居节点K取6时,F1值最佳。

      图  10  K取值分析

    • 为了验证本文算法所提模块的有效性,分别在DRIVE、CHASEDB1和STARE这3个数据集上进行消融实验。实验结果如表6所示。表中模型A1表示基础模型U-Net,模型A2表示在模型A1的基础上加入GCN模块,模型A3表示在模型A2的基础上加入多层次特征融合模块,模型A4为本文算法。

      表6可知,由于U-Net使用普通卷积只能提取局部特征信息,导致血管像素容易被分类成背景像素,在U-Net的基础上加入图卷积模块后,可以充分提取图像的全局特征信息,并且捕获血管像素之间的长期依赖关系,从而提升模型提取血管像素的能力。在DRIVE数据集和CHASEDB1数据集上可以看到SE指标有所上升,由于STARE数据集中大部分图像血管像素占比较低,SE指标有所下降,但SP有所提升。加入多层次特征融合模块后,各项指标均有所上升,说明多层次特征融合模块可以有效减少U-Net下采样过程中空间信息的损失,提升模型分割的准确度。加入多尺度特征融合块后,减少了特征图中的噪声信息的同时且保留语义信息,达到了最好的分割效果。综上所述,本文提出的模块具有一定的有效性和合理性。

      表 6  消融实验结果

      DatasetmodelF1SESPACCAUC
      DRIVEA10.82480.82130.97510.95550.9773
      A20.82620.83130.97300.95600.9779
      A30.82780.83420.97410.95710.9810
      A40.82900.83450.97390.95730.9813
      CHASEDB1A10.82240.82130.97820.96090.9837
      A20.83550.84550.97790.96290.9865
      A30.83640.84640.97800.96350.9872
      A40.83790.84270.97910.96400.9878
      STAREA10.80020.72850.98960.96320.9807
      A20.80150.76920.98170.95870.9822
      A30.80380.77540.98130.95900.9829
      A40.80630.77860.98140.95950.9836
    • 本文针对视网膜血管分割中出现的血管断裂、边界不清晰等问题,在基于编码器−解码器的架构上进行改进,提出了一种图卷积多层级特征融合的视网膜血管分割算法。为了提升模型提取血管特征的能力,在编码器与解码器之间加入图卷积模块捕获血管像素之间的长距离依赖关系;同时在跳跃连接处加入多尺度特征融合模块以减少特征层中的噪声信息,使模型更加关注血管特征。此外,本文提出的多层次特征融合模块可以有效减少因下采样造成的空间信息的损失。实验结果表明,本文算法的F1值在3个数据集上均高于其他算法,分割结果可视化图也显示出本文算法的优越性。然而,本文算法的图卷积模块中构图所使用的K−近邻算法比较耗时,增加了模型的训练时长和推理时长,在后续研究中,主要探索使用注意力矩阵计算像素之间的相似性代替K近邻算法来构图,并且使用部分卷积代替传统卷积来减少模型的参数量,从而减少模型的时间复杂度与空间复杂度。

参考文献 (31)

目录

    /

    返回文章
    返回