-
静脉溶栓可以一定程度上开通闭塞血管,恢复血流灌注,是治疗急性缺血性脑卒中(Acute Ischemic Stroke, AIS)的有效方式。对静脉溶栓治疗效果的评估常常需要借助X射线数字减影血管造影(Digital Subtraction Angiography, DSA)成像,DSA成像是诊断脑血管疾病的重要方法,它的基本原理是将造影前后拍摄的X射线图像进行减影,以消除血管造影影像上的骨骼和软组织结构,从而获得清晰的血管影像。在获得DSA图像后,医生可以基于图像对AIS治疗后的再灌注程度进行mTICI评分。mTICI评分根据血管再通程度分为5级,分别为0级、1级、2a级、2b级和3级。为了分级更准确,经常采用正面和侧面的DSA显影图像对以获取更充分的信息。然而,对DSA图像的识别、诊断和分级工作通常是由专业的医生来完成。近年来,随着人工智能、深度学习的快速发展,使用计算机辅助诊断可以显著提高诊断效率[1]。其中,基于深度学习的图像分类是计算机辅助诊断的常用方法,将医疗图像作为输入,通过训练好的模型对其进行预测,输出病患病情进行智能辅助诊断。
在脑卒中辅助智能诊断模型研究中,文献[2]提出了一种基于视频的卒中损伤评估系统,使用Mask R-CNN[3]、级联金字塔网络和时域卷积网络模型实现了自动评分。文献[4]基于血管造影参数成像(Angiographic Parametric Imaging, API)图,设计了一个能够自动评估机械血栓切除术(Mechanical Thrombectomy, MT)过程中神经血管的再灌注情况的卷积神经网络,对血管是否再通成功的预测准确率达81%。文献[5]基于卒中患者核磁共振图像(Magnetic Resonance Imaging, MRI)研究了一种基于深度学习和机器学习的混合方法,用于预测患者的语言障碍严重程度,使用CNN的高级特征和主成分分析(PCA)的图像特征作为岭回归的输入,实现了比仅使用深度学习或机器学习模型更好的性能。文献[6]基于医疗服务使用和健康行为数据,利用深度神经网络和PCA预测患者卒中的概率,AUC值达83.48%,对于具有较高卒中风险患者的早期发现具有重要意义。文献[7]使用卷积神经网络进行了急性缺血性卒中患者组织病变体积的预测,以便于医生根据患者病变体积制定科学的治疗方案,表明了使用深度卷积神经网络对卒中患者组织形态和治疗效果预测的有效性。文献[8]使用集成网络结合多个平面的API图来评估再灌注水平,使用CNN将API图分类为充分/不充分的再灌注;对于模型的输出,采用网格搜索算法对每个网络输出进行加权,结果表明使用来自多个视图的模型评估再灌注水平比使用单一视图更有效。文献[9]提出了一种基于CNN的全自动的定量TICI评分算法autoTICI,首先,利用多路径卷积神经网络将每个DSA图像序列划分为4个时期,分别为非对比度期、动脉期、实质造影期以及静脉期;其次,使用运动校正的动脉期和实质造影期的图像序列计算最小强度图,在最小强度图上,分割血管、灌注和背景;最后将autoTICI评分量化为治疗后的再灌注像素比率,实现对再灌注水平的定量分析。
以上研究表明:当前深度学习模型应用于AIS辅助影像智能诊断的研究工作主要基于CNN,且处理的大多是单面影像;文献[9]提出的模型可以同时处理正面和侧面影像,但两个视频流输入模型不仅导致数据处理量大,而且无法适应不同成像设备导致的视频流规格不一致问题,此外,提出的autoTICI的定量分析方法具有4个阶段,无法实现端到端训练。且CNN模型感受野较小,难以捕获图像全局特征。为了获得图像全局信息,并结合临床需要的正、侧面图像结合诊断,本文设计了一种基于Transformer的双路径图像分类模型Dual-Path Vision Transformer(DPVF)用于AIS辅助诊断,模型的两个路径分别用于提取患者正面和侧面DSA图像的信息特征。
-
本实验使用的数据集涉及194名AIS患者,使用DSA设备采集减影血管图像序列,每个序列包含15~30帧不等,对这些患者在治疗过程中拍摄得到的DSA图像进行筛选分级,得到1019对质量良好的正侧面图像。根据脑血管再通是否成功作为分类依据,将mTICI评级为2b或3标为类别1,血管未再通成功(mTICI评级为0、1或2a)标注为类别0。再通成功数据共计537对,未再通成功共计482对,具体如表1所示。训练集和测试集按照8:2的比例随机划分。
mTICI级别 数量/对 所属分类 0 368 0 1 40 0 2a 74 0 2b 170 1 3 367 1 -
对于医学图像分类模型,常用的评价指标包括准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1得分(F1 score),分别表示为:
式中,TP、TN、FP、FN分别代表真阳性、真阴性、假阳性、假阴性,也即分别代表“预测为正样本,且预测正确”“预测为负样本,且预测正确”“预测为正样本,但预测错误”“预测为负样本,但预测错误”。
-
在RTX 2080Ti上基于深度学习框架Pytorch进行模型的训练,迭代次数为100,batch size设置为8,初始学习率为0.0001,使用Adam优化器[14]。DPVF模型的训练过程如图7和图8所示,可以看出,DPVF的准确率随epoch增加而增加,损失值随epoch增加而减小,约迭代20次后,准确率和损失都收敛到一个较小的区间范围,说明DPVF经过了充分的训练后能够快速收敛。
对经过训练的DPVF模型与现有主流模型在测试集上测试,其中,每个经典模型的测试包括3方面,分别为输入单张正面图像的单分支模型、输入单张侧面图像的单分支模型,以及同时输入正面和侧面两张图像的采用Concat融合方式的双分支模型,分别计算每个模型的混淆矩阵、准确率、精准率、召回率和F1得分,对比实验结果如表2所示。
模型 TP FP FN TN Accuracy/% Precision/% Recall/% F1 score/% 本文DPVF 94 2 1 106 98.5 97.9 98.9 98.4 EdgeViT(正+侧) 95 1 5 102 97.0 99.0 95.0 97.0 EdgeViT(正+侧)拼接 93 3 4 103 96.6 96.9 95.9 96.4 EdgeViT(正) 91 5 4 103 95.6 94.8 95.8 95.3 EdgeViT(侧) 90 6 2 105 96.1 93.8 97.8 95.8 ViT-B/16(正+侧) 83 13 10 97 88.7 86.5 89.2 87.8 ViT-B/16(正) 96 0 26 81 87.2 100 78.7 88.1 ViT-B/16(侧) 83 13 16 91 85.7 86.5 83.8 85.1 ShuffleNet V2(正+侧) 88 8 3 104 94.6 91.7 96.7 94.1 ShuffleNet V2(正) 92 4 10 97 93.1 95.8 90.2 92.9 ShuffleNet V2(侧) 93 3 9 98 94.1 96.9 91.2 94.0 ResNet-50(正+侧) 95 1 4 103 97.5 99.0 96.0 97.5 ResNet-50(正) 90 6 2 105 96.1 93.8 97.8 95.8 ResNet-50(侧) 95 1 5 102 97.0 99.0 95.0 97.0 MobileNet V2(正+侧) 76 20 3 104 88.7 79.2 96.2 86.9 MobileNet V2(正) 73 23 18 89 79.8 76.0 80.2 78.0 MobileNet V2(侧) 75 21 15 92 82.3 78.1 83.3 80.6 ConvNeXt(正+侧) 95 1 4 103 97.5 99.0 96.0 97.5 ConvNeXt(正) 92 4 2 105 97.0 95.8 97.9 96.8 ConvNeXt(侧) 94 2 4 103 97.0 97.9 95.9 96.9 AlexNet(正+侧) 94 2 20 87 89.2 97.9 82.5 89.5 AlexNet(正) 83 13 21 86 83.3 86.5 79.8 83.0 AlexNet(侧) 78 18 12 95 85.2 81.3 86.7 83.9 使用折线图对每个模型在测试集上的准确率进行可视化,如图9所示,可以看出,本文提出的DPVF模型在测试集上的准确率达到了最高的98.5%,优于基于EdgeViT的正面加侧面图像输入的双分支模型,说明了本文改进的LGL模块的有效性;此外,可以看出,EdgeViT的双分支采用交叉注意力的融合方式的准确率达97.0%,而采用拼接融合方式的准确率为96.6%,说明本文构建的交叉注意力模块可以达到比拼接方式更好的特征融合效果,证明了本文构建的交叉注意力模块的有效性;此外,输入正面和侧面两幅图像的双分支模型的准确率均高于输入单幅图像对应的单分支模型,说明同时输入正面和侧面两幅图像有助于模型提取到更丰富的特征,可以有效提升图像分类的准确率和精度。结合表2可以看出,DPVF在准确率、精准率、召回率和F1得分上均取得了较好的表现,其中准确率达98.5%,F1得分、精准率和召回率分别达到了98.4%、97.9%、98.9%。与单分支ViT模型及其他模型相比,DPVF在各个指标上均具有一定的优势,说明本文构建的正面和侧面图像交叉融合有效地提取了正面和侧面图像多角度的特征,优于两幅图像的简单拼接融合,从而提升了模型的mTICI自动分级准确率。
Dual-Path Vision Transformer for Auxiliary Diagnosis of Acute Ischemic Stroke
doi: 10.12178/1001-0548.2023081
- Received Date: 2023-03-21
- Rev Recd Date: 2023-05-15
- Available Online: 2024-04-01
- Publish Date: 2024-03-30
-
Key words:
- acute ischemic stroke /
- vision Transformer /
- dual-path /
- feature fusion
Abstract: Acute ischemic stroke is one of the fatal brain dysfunction diseases caused by the interruption of blood supply to the brain tissue. Digital Subtract Angiography (DSA) is the gold standard for diagnosing such cerebrovascular diseases. Based on the frontal and lateral DSA images of the patients, a dual-path image classification intelligent model, Dual-Path Vision Transformer (DPVF), is constructed in this paper to evaluate the treatment effectiveness of acute ischemic stroke in a graded manner. In order to improve the speed of auxiliary diagnosis, the model is constructed based on the lightweight design idea of EdgeViT. And in order to make the model have high accuracy, the spatial-channel self-attention module is proposed to promote the transformer model to capture more comprehensive feature information and improve the model representation. In addition, for the feature fusion of two branches of DPVF, a cross-attention module is constructed to cross-fuse the outputs of the two branches, which promotes the model to extract richer features and thus improves the model performance. The experimental results show that the accuracy of DPVF on the test set reaches 98.5%, which can effectively meet the practical requirements.
Citation: | ZHANG Taohong, GUO Xueqiang, ZHENG Han, LUO Jichang, WANG Tao, JIAO Liqun, TANG Anying. Dual-Path Vision Transformer for Auxiliary Diagnosis of Acute Ischemic Stroke[J]. Journal of University of Electronic Science and Technology of China, 2024, 53(2): 307-314. doi: 10.12178/1001-0548.2023081 |