留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于Adaboost的脑肿瘤患者存活周期分析

张桂凤

张桂凤. 基于Adaboost的脑肿瘤患者存活周期分析[J]. 电子科技大学学报, 2020, 49(3): 467-472, 480. doi: 10.12178/1001-0548.2019101
引用本文: 张桂凤. 基于Adaboost的脑肿瘤患者存活周期分析[J]. 电子科技大学学报, 2020, 49(3): 467-472, 480. doi: 10.12178/1001-0548.2019101
ZHANG Gui-feng. Life Cycle Analysis for Brain Tumor Patients Based on Adaboost[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(3): 467-472, 480. doi: 10.12178/1001-0548.2019101
Citation: ZHANG Gui-feng. Life Cycle Analysis for Brain Tumor Patients Based on Adaboost[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(3): 467-472, 480. doi: 10.12178/1001-0548.2019101

基于Adaboost的脑肿瘤患者存活周期分析

doi: 10.12178/1001-0548.2019101
详细信息
    作者简介:

    张桂凤(1976-),女,副教授,主要从事电工电子及信号处理方面的研究. E-mail:zgfzgf99@126.com

  • 中图分类号: TP391.4

Life Cycle Analysis for Brain Tumor Patients Based on Adaboost

  • 摘要: 随着现代社会中脑部肿瘤发病率的日渐上升,脑肿瘤患者存活周期分析在临床中的意义也日渐凸显。为解决当前方法分析准确率不高的问题,该文提出一种基于Adaboost的脑肿瘤患者存活周期分析系统,首先对脑肿瘤患者的MR进行预处理、归一化、获取ROI和分割等处理,随后提取脑肿瘤患者的多序列MR的纹理特征以及进行以互信息为评价标准的特征选择并得到特征子集,最后搭建以Adaboost.R2为核心的分析模型,并利用特征子集完成分析模型的训练和调优,以完成肿瘤患者存活周期的分析。Brats2018训练数据上的交叉验证实验结果证实该系统的分析准确率优于Brats2018 challenge前3名的方法和传统回归分析方法。
  • 图  1  基于Adaboost的脑肿瘤患者存活周期分析系统图

    图  2  脑肿瘤MR标注、分割、ROI示意图

    图  3  Brats2018训练数据样本

    表  1  特征子集

    序号特征名称序号特征名称
    1T1_glcm_Imc236Flair_gldm_SDE
    2T1_glrlm_RLNU37Flair_gldm_SDHGLE
    3T1_glrlm_SRHGLE38Flair_gldm_SDLGLE
    4T1_glszm_LAHGLE39T1ce_glcm_DE
    5T1_glszm_SZNUN40T1ce_glcm_SE
    6T1_glszm_SAE41T1ce_glrlm_LRHGLE
    7T1_glszm_SAHGLE42T1ce_glrlm_RLNU
    8T1_glszm_ZE43T1ce_glszm_GLNUN
    9T1_gldm_DV44T1ce_glszm_GLV
    10T1_gldm_LDHGLE45T1ce_glszm_LAHGLE
    11T1_gldm_LDLGLE46T1ce_glszm_LGLZE
    12T1_gldm_SDE47T1ce_glszm_SZNUN
    13T1_gldm_SDHGLE48T1ce_glszm_SALGLE
    14T1_gldm_SDLGLE49T1ce_glszm_ZE
    15T2_glcm_Imc150T1ce_gldm_LDHGLE
    16T2_glcm_Imc251T1ce_gldm_LDLGLE
    17T2_glrlm_RLNU52T1ce_gldm_SDE
    18T2_glszm_SZNUN53T1ce_gldm_SDHGLE
    19T2_glszm_SALGLE54T1ce_gldm_SDLGLE
    20T2_glszm_ZE55Ncr_glrlm_RE
    21T2_gldm_DV56Ncr_glrlm_RLNUN
    22T2_gldm_LDLGLE57Ncr_glszm_SAE
    23T2_gldm_SDE58Ncr_glszm_ZP
    24T2_gldm_SDHGLE59Ed_glszm_GLNU
    25T2_gldm_SDLGLE60Ed_glszm_SZNUN
    26Flair_glrlm_RLNU61Ed_glszm_SAHGLE
    27Flair_glrlm_SRHGLE62Ed_glszm_SALGLE
    28Flair_glszm_SZNUN63Ed_gldm_SDHGLE
    29Flair_glszm_SAE64Ed_gldm_SDLGLE
    30Flair_glszm_SALGLE65Et_glrlm_GLNU
    31Flair_glszm_ZP66Et_glrlm_RV
    32Flair_glszm_ZV67Et_glszm_LALGLE
    33Flair_gldm_DV68Et_gldm_DNU
    34Flair_gldm_LDHGLE69Et_gldm_DV
    35Flair_gldm_LDLGLE70Et_gldm_GLNU
    下载: 导出CSV

    表  2  实验结果

    算法准确率 /%
    Xue48.750
    Baid35.400
    Weninger44.090
    ICA+LR43.125
    PCA+RF39.375
    本文53.750
    下载: 导出CSV
  • [1] 赖小波, 许茂盛, 徐小媚. 多模态MR图像和多特征融合的胶质母细胞瘤自动分割[J]. 计算机辅助设计与图形学学报, 2019, 31(3): 421-430.

    LAI Xiao-bo, XU Mao-sheng, XU Xiao-mei. Multi-modal MR images and multi-feature fusion for automatic segmentation of glioblastoma[J]. Journal of Computer-Aided Design & Computer Graphics, 2019, 31(3): 421-430.
    [2] 侯超. 核磁共振的成像原理及临床应用研究[J]. 影像研究与医学应用, 2017, 1(9): 25-26. doi:  10.3969/j.issn.2096-3807.2017.09.015

    HOU Chao. The imaging principle and clinical application of NMR[J]. Image Research and Medical Applications, 2017, 1(9): 25-26. doi:  10.3969/j.issn.2096-3807.2017.09.015
    [3] FENG X, TUSTISON N, MEYER C. Brain tumor segmentation using an ensemble of 3D U-nets and overall survival prediction using radiomic features[C]// International MICCAI Brainlesion Workshop. Cham: Springer, 2018: 279-288.
    [4] MONTGOMERY D C, PECK E A, VINING G G. Introduction to linear regression analysis[M]. New York: Wiley, 1982.
    [5] BAID U, TALBAR S, RANE S, et al. Deep learning radiomics algorithm for gliomas (DRAG) model: a novel approach using 3D UNET based deep convolutional neural network for predicting survival in gliomas[C]// International MICCAI Brainlesion Workshop. Cham: Springer, 2018: 369-379.
    [6] ZHANG Z, LYONS M, SCHUSTER M, et al. Comparison between geometry-based and Gabor-wavelets-based facial expression recognition using multi-layer perceptron[C]// IEEE International Conference on Automatic Face & Gesture Recognition. Japan: IEEE, 1998: 454-459.
    [7] WENINGER L, RIPPEL O, KOPPERS S, et al. Segmentation of brain tumors and patient survival prediction: methods for the BraTS 2018 challenge[C]// International MICCAI Brainlesion Workshop. Cham: Springer, 2018: 3-12.
    [8] SPYRIDON, B, MAURICIO R, ANDRAS J, et al. Identifying the best machine learning algorithms for brain tumor segmentation, progression assessment, and overall survival prediction in the BRATS challenge[EB/OL]. [2019-03-19]. https://arxiv.org/abs/1811.02629.
    [9] CORTES C, VAPNIK V. Support-vector networks[J]. Machine Learning, 1995, 20(3): 273-297.
    [10] PETERSON L. K-nearest neighbor[J]. Scholarpedia, 2009, 4(2): 1883. doi:  10.4249/scholarpedia.1883
    [11] SVETNIK V, LIAW A, TONG C, et al. Random forest: a classification and regression tool for compound classification and QSAR modeling[J]. Journal of Chemical Information & Computer Sciences, 2003, 43(6): 1947.
    [12] YOCKEY H P. Information theory with applications to biogenesis and evolution[M]. McGraw-Hill: Biogenesis Evolution Homeostasis, 1973.
    [13] DRUCKER H. Improving regressors using Boosting techniques[C]// Proceedings of the Fourteenth International Conference on Machine Learning. [S.l.]: ACM, 1997: 107-115.
    [14] 孙嘉. 图像特征提取(纹理特征)[EB/OL]. [2018-07-26]. https://blog.csdn.net/weixin_42805841/article/details/81227078.

    SUN Jia. Image feature extraction (texture feature)[EB/OL]. [2018-07-26]. https://blog.csdn.net/weixin_42805841/article/details/81227078.
    [15] GRIETHUYSEN J J M, FEDOROV A, PARMAR C , et al. Computational radiomics system to decode the radiographic phenotype[J]. Cancer Research, 2017, 77(21):104-107.
    [16] HARALICK R M, SHANMUGAM K, DINSTEIN I H. Textural features for image classification[J]. Studies in Media and Communication, 1973, SMC-3(3): 610-621. doi:  10.1109/TSMC.1973.4309314
    [17] GALLOWAY M M. Texture analysis using gray level run lengths[J]. IEEE Trans Comput Imaging, 1975, 4(2): 172-181.
    [18] THIBAULT G, FERTIL B, NAVARRO C, et al. Texture indexes and gray level size Zone matrix application to cell nuclei classification[C]//10th International Conference on Pattern Recognition and Information Processing. [S.l.]: PRIP, 2009: 140-145.
    [19] SUN C, WEE W G. Neighboring gray level dependence Matrix for texture classification[J]. Computer Vision, Graph Image Process, 1983, 2(3): 341-352.
    [20] COMON P. Independent component analysis, a new concept?[J]. Signal Processing, 1994, 36(3): 287-314. doi:  10.1016/0165-1684(94)90029-9
    [21] WOLD S. Principal component analysis[J]. Chemometrics & Intelligent Laboratory Systems, 1987, 2(1): 37-52.
  • [1] 任丽萍, 宁琳, 谢雷, 张杨.  肿瘤免疫微环境中免疫细胞间通讯景观探究 . 电子科技大学学报, 2022, 51(2): 177-183. doi: 10.12178/1001-0548.2021372
    [2] 姚旭, 詹秀秀, 刘闯, 张子柯.  基于复杂网络控制理论的肿瘤关键基因预测研究 . 电子科技大学学报, 2022, 51(1): 138-147. doi: 10.12178/1001-0548.2021173
    [3] 郑文, 赵偲, 李泽堃, 武啸泽, 胡涛.  基于Web数据挖掘的COVID-19流行病学特征分析 . 电子科技大学学报, 2020, 49(3): 408-414. doi: 10.12178/1001-0548.2020079
    [4] KOU Hua-ri, LI Xi-fei, LIU Wen, SHAN Hui, YAN Bo, DING Shu-jiang.  Atomic Layer Deposition of Ult​​​​​​​​​​​​​​r​​​​​​​athi​​​​​​​n MgO Coating onto LiNi0.6Co0.2Mn0.2O2 . 电子科技大学学报, 2020, 49(1): 3-12. doi: 10.12178/1001-0548.2020015
    [5] 邱甲军, 吴跃, 惠孛, 刘彦伯.  肝细胞癌MR图像的纹理分类研究 . 电子科技大学学报, 2019, 48(4): 619-626. doi: 10.3969/j.issn.1001-0548.2019.04.021
    [6] 牟建红, 黄格, 吕欣.  中国航空网络时序特征分析 . 电子科技大学学报, 2018, 47(3): 462-468. doi: 10.3969/j.issn.1001-0548.2018.03.022
    [7] 陈俊周, 汪子杰, 陈洪瀚, 左林翼.  基于级联卷积神经网络的视频动态烟雾检测 . 电子科技大学学报, 2016, 45(6): 992-996. doi: 10.3969/j.issn.1001-0548.2016.06.020
    [8] 蒋伟雄, 刘华生, 廖坚, 李勇帆, 王维.  基于多维模式分析对说谎的脑网络特征识别 . 电子科技大学学报, 2015, 44(2): 311-315. doi: 10.3969/j.issn.1001-0548.2015.02.026
    [9] 宋竹, 秦志光, 罗嘉庆, 张悦涵.  电信数据中用户行为特征测量与分析 . 电子科技大学学报, 2015, 44(6): 934-939. doi: 10.3969/j.issn.1001-0548.2015.06.024
    [10] 付忠良.  关于Real AdaBoost算法的分析与改进 . 电子科技大学学报, 2012, 41(4): 545-551. doi: 10.3969/j.issn.1001-0548.2012.04.013
    [11] 王勇, 张婷婷, 白杨, 刘梦娟, 秦志光.  基于普特征的Gnutella实例网络特征分析 . 电子科技大学学报, 2012, 41(2): 291-298. doi: 10.3969/j.issn.1001-0548.2012.02.023
    [12] 王敏琴, 韩国强, 涂泳秋.  新型的无监督纹理分割方法 . 电子科技大学学报, 2010, 39(1): 11-15. doi: 10.3969/j.issn.1001-0548.2010.01.003
    [13] 荀京京, 王厚军, 向长波, 宋建中.  一种提取视频电磁泄漏信息同步特征的方法 . 电子科技大学学报, 2007, 36(3): 579-582.
    [14] 沈鑫, 邱昆, 张崇富.  一种基于半导体光放大器的全光2R再生器 . 电子科技大学学报, 2004, 33(6): 726-729.
    [15] 郭磊, 杨中海.  LFMCW雷达信号多周期模糊函数分析 . 电子科技大学学报, 2004, 33(5): 543-546.
    [16] 李志强, 张北江, 李广侠.  周期PN序列抗单频干扰能力的分析 . 电子科技大学学报, 2004, 33(2): 121-124,153.
    [17] 邹琪, 皮亦鸣, 黄顺吉.  极化SAR图像的多纹理最大似然估计 . 电子科技大学学报, 2001, 30(2): 120-123.
    [18] 代俊光, 陈光.  一种基于同步抽样技术的周期信号高精度DFT分析 . 电子科技大学学报, 2000, 29(1): 65-68.
    [19] 李俊生, 彭兵, 赵东风, 余建坤, 蔡群.  ATM接入网络中非对称性周期传输过程分析 . 电子科技大学学报, 1999, 28(5): 550-553.
    [20] 刘国庆, 黄顺吉.  纹理SAR图像的多分辨率分析和分类(英文) . 电子科技大学学报, 1997, 26(6): 585-589.
  • 加载中
图(3) / 表(2)
计量
  • 文章访问数:  5008
  • HTML全文浏览量:  1817
  • PDF下载量:  38
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-04-16
  • 修回日期:  2020-03-10
  • 网络出版日期:  2020-05-28
  • 刊出日期:  2020-05-01

基于Adaboost的脑肿瘤患者存活周期分析

doi: 10.12178/1001-0548.2019101
    作者简介:

    张桂凤(1976-),女,副教授,主要从事电工电子及信号处理方面的研究. E-mail:zgfzgf99@126.com

  • 中图分类号: TP391.4

摘要: 随着现代社会中脑部肿瘤发病率的日渐上升,脑肿瘤患者存活周期分析在临床中的意义也日渐凸显。为解决当前方法分析准确率不高的问题,该文提出一种基于Adaboost的脑肿瘤患者存活周期分析系统,首先对脑肿瘤患者的MR进行预处理、归一化、获取ROI和分割等处理,随后提取脑肿瘤患者的多序列MR的纹理特征以及进行以互信息为评价标准的特征选择并得到特征子集,最后搭建以Adaboost.R2为核心的分析模型,并利用特征子集完成分析模型的训练和调优,以完成肿瘤患者存活周期的分析。Brats2018训练数据上的交叉验证实验结果证实该系统的分析准确率优于Brats2018 challenge前3名的方法和传统回归分析方法。

English Abstract

张桂凤. 基于Adaboost的脑肿瘤患者存活周期分析[J]. 电子科技大学学报, 2020, 49(3): 467-472, 480. doi: 10.12178/1001-0548.2019101
引用本文: 张桂凤. 基于Adaboost的脑肿瘤患者存活周期分析[J]. 电子科技大学学报, 2020, 49(3): 467-472, 480. doi: 10.12178/1001-0548.2019101
ZHANG Gui-feng. Life Cycle Analysis for Brain Tumor Patients Based on Adaboost[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(3): 467-472, 480. doi: 10.12178/1001-0548.2019101
Citation: ZHANG Gui-feng. Life Cycle Analysis for Brain Tumor Patients Based on Adaboost[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(3): 467-472, 480. doi: 10.12178/1001-0548.2019101
  • 脑肿瘤是指发生于颅腔内的神经系统肿瘤,又称颅内肿瘤,其主要发生于成年人,特别是老年人,具有复发率高、病死率高以及治愈率低3大特点[1]。脑肿瘤产生的常见危害是造成脑内组织水肿和压迫中枢神经等脑内正常组织。脑肿瘤伴随的脑水肿会导致颅内压升高,在临床上脑肿瘤患者多表现为头痛、呕吐或瞳孔病变等。脑肿瘤的生长会直接压迫正常脑内功能结构,诱发认知能力下降、偏瘫、失语症、反应迟钝等局部神经症状的发生。

    脑部磁共振成像(magnetic resonance images, MR)是脑肿瘤疾病检查的主要手段之一,具有实时成像、无创伤性成像、无辐射性成像、成像分辨率高等优点。MR利用原子核自旋运动的特点,成像设备对脑组织进行外加磁场干预,并用探测器检测射频脉冲激发脑内原子后所产生的信号,再由计算机对探测器检测的信号处理成图像[2]。脑肿瘤疾病诊断普遍使用的MR是结构性磁共振影像(structural magnetic resonance imaging, sMRI),sMRI能够定性地展现大脑中肿瘤组织和正常组织的位置、形状和大小,为医生把握患者的病情提供有效参考。sMRI在成像过程中可以通过调节参数生成T1、T2、T1ce(T1增强)、Flair(液体衰减反转恢复)等多种序列,以不同方式呈现组织特性,为临床诊断提供多角度、多方位的准确信息。如,肿瘤和纤维组织在T1序列中均多呈低信号,而在T2序列中肿瘤多呈现为高信号,纤维组织呈现低信号。这样,就可以通过T1、T2序列的结合来对目标组织进行判断。通常脑肿瘤在多序列MR中呈现出的肿瘤区域由3个子区域组成,分别为水肿区域(edema tumor, ED)、增强区域(GD-enhancing tumor, ET)、非坏死区域(necrotic and non-enhancing tumor, NCR)。

    基于MR的脑肿瘤患者存活周期预测研究,能够为临床诊断效果的判别和医师相关治疗计划的调整提供相应的辅助参考信息。因此,基于MR的脑肿瘤患者存活周期预测在临床中也极具意义。但是,基于MR的脑肿瘤患者存活周期分析是一项极具挑战的工作,因为临床中保留下的可供分析的完备且有效的样本数量相对较少,增加了分析难度。随着机器学习等人工智能技术的不断成熟,基于MR的脑肿瘤患者存活周期预测的研究也取得了一些进展。文献[3]提出了一种基于图像特征和非图像特征的线性回归模型的分析方法,其从脑肿瘤MR的Groundtruth中提取了ED、ET以及NCR部分的体素数目和表面积等6种图像特征以及患者的年龄和手术状态2种非图像特征,最后将8种特征输入到线性回归(linear regression, LR)[4]模型中进行学习训练以进行存活周期分析。文献[5]提出了一种基于纹理特征和多层感知机(multi-layer perception, MLP)[6]模型的分析方法,其通过计算肿瘤MR的一阶统计、形状特征、灰度共生矩阵和灰度运行长度矩阵特征,并从ED、肿瘤核区域(tumor core, TC)及ET区域中提取了468个特征,并将提取的468种特征输入到MLP中学习训练,经过相关模型调优后完成脑肿瘤患者存活周期分析的工作。文献[7]提出了一种基于脑肿瘤患者年龄和LR的分析方法,其直接将患者年龄输入到LR模型中训练以进行存活周期分析。以上3种方法在Brats2018 Challenge[8]的脑肿瘤患者存活周期分析赛道中取得了前3名的成绩。除了以上方法外,相关的机器学习回归方法,如支持向量机模型(support vector machine, SVM)[9]、K近邻(K-nearest neighbor,KNN)[10]、随机森林(random forest, RF)[11]等模型,也在此领域中有着相关应用。

    虽然脑肿瘤患者存活周期分析领域已经取得了一些进展,但是仍存在一些问题待解决。首先,一些方法在前期特征工程阶段存在特征提取针对性不强和特征选择缺失的问题。现行系统中的许多方法在特征提取阶段针对性不强,没有根据分析目的进行特征提取。并且相关方法没有对所提特征集进行去冗余和去相关处理,在特征提取阶段提取的原始特征集中可能存在大量的冗余特征和相关特征。如果直接利用原始特征集进行模型的训练不仅增大模型的训练代价而且可能会限制模型泛化能力的提升。其次,分析模型选择目的性不明确。由于临床中可用的训练样本较少,所以在进行分析时就应该尽可能地选取泛化能力高的分析模型。虽然MLP、LR等模型具有简单、可操作性高等优点,但是通过优化目标的分析可以了解到这些模型的泛化能力与基于MR的脑肿瘤患者存活周期分析的要求还相距较远。为解决以上问题,本文提出了一种基于Adaboost的脑肿瘤患者存活周期分析系统。

    • 图1为本文提出的基于Adaboost的脑肿瘤患者存活周期分析系统图。为增强影像样本中有关信息的可检测性、最大限度地简化数据以及改进特征提取和识别的可靠性,首先对脑肿瘤患者的多序列功能性磁共振样本进行时间层校正、头动校正、图像配准、空间配准、空间标准化等预处理。之后通过读取肿瘤区域标注的Groundtruth 进行肿瘤感兴趣区域(region of interest, ROI)的确定和肿瘤目标区域的分割。通过以上预处理等操作,本文对脑肿瘤多序列MR影像提取纹理特征以获取原始特征集。在特征提取之后,为减少模型训练过程中的时间代价、资源占耗和提高模型预测的结果,利用前向分布算法以互信息(mutual information, MI)[12]为评价准则对原始特征集进行去冗余和去相关性等降维处理,并获取原始特征集的有益特征子集。在特征选择之后,利用特征子集和对应样本的存活情况对Adaboost.R2[13]进行学习训练,并在经过调优后输出相关样本的存活周期的分析结果。

    • 由于MR样本的体素数目巨大,直接利用MR进行学习分析就变得十分困难。为了减少学习代价和最大化模型的泛化效果,必须从脑肿瘤MR中提取具有信息量和非冗余性的派生值,这样不仅能够尽可能无差性地描述原始数据,而且能够简化学习过程。纹理是一种反映图像中同质现象的视觉特征,它体现了物体表面具有缓慢变化或者周期性变化的表面结构组织排列属性[14]。通过像素及其周围空间邻域的灰度分布展现的纹理可以了解肿瘤等病变组织的发展区域和恶化程度,从而了解脑部肿瘤的本质属性。同时,纹理特征具有旋转不变性和对于噪声有较强的抵抗能力,因此,本文采用纹理特征作为进行脑肿瘤患者存活周期分析的主要特征。

      图  1  基于Adaboost的脑肿瘤患者存活周期分析系统图

      对脑肿瘤患者的MR影像进行多序列、多重分形的纹理特征提取。首先,要获取应用于肿瘤分析的感兴趣区域(ROI),采取的方法是读取脑肿瘤患者影像的分割标签(groundtruth),这些分割标签是由脑肿瘤影像分析专家逐层勾画的,能够精准表示肿瘤的区域。脑肿瘤患者MR影像的标注、分割、三维ROI示例如图2所示。其中图2a为脑肿瘤患者的MR影像,左上曲线为肿瘤边界,图2b为分割结果,图2c为ROI示意图。

      图  2  脑肿瘤MR标注、分割、ROI示意图

      在获取脑肿瘤MR的ROI之后,通过Pyradiomics[15]分别计算脑肿瘤MR的三维灰度共生矩阵(gray-level co-occurrence matrix,GLCM)[16]、灰度游程矩阵(gray-level run-length matrix, GLRLM)[17]、灰度级带矩阵(gray-level size zone matrix, GLSZM)[18]、灰度空间依赖矩阵(gray level dependence matrix, GLDM)[19]及其相关矩阵属性值,提取70种纹理特征。最后,按照以上特征提取方法在脑肿瘤患者的T1、T2、T1ce、Flair 4个模态以及ED、ET、NCR 3个肿瘤子区域中,分别提取了以上70种特征。综上,本文共提取了490(7×70)种纹理特征。

    • 本文在特征提取阶段提取了490种特征,这些特征为后续预测模型的学习提供了学习依据。由于所提取的原始特征集可能存在冗余特征和相关特征,如果这些特征全部用于预测模型的建立,必然会增大预测模型训练代价和降低学习模型的预测效果。因此,在预测模型学习之前需要进行特征选择将提取的原始特征集进行去冗余性和去相关性操作,即进行特征选择。本文使用前向逐步算法以MI,如式(1)为评价准则提取的原始特征集选出了一个包含70个特征的特征子集。式(1)互信息描述的是两个特征的分布相似度。

      $$ {\rm{MI}}(X;Y) = \sum\limits_{y \in Y} {\sum\limits_{x \in X} {p(x,y)\log \left(\frac{{p(x,y)}}{{p(x)p(y)}}\right)} } $$ (1)

      式中,$p(x,y)$是 特征X 和特征 Y 的联合概率分布函数;$p(x)$$p(y)$分别是特征X 和特征 Y的边缘概率分布函数。

      对原始特征集进行特征选择的步骤如下:1) 计算原始特征集中每一个特征与其他特征的互信息之和,将原始特征集中与其他特征互信息之和最小的特征放入特征子集中;2) 更新原始特征集和特征子集;3) 依次迭代,直到特征子集中包含70个特征为止。具体算法结构如算法1所示,算法1中index表示每次迭代时选择的特征的序号。

      算法1 特征选择

      输入:原始特征集X

      输出:特征子集Y

      初始化:

      $Y= \emptyset $

      featnum=70

      for j to feanum do

       for i to length(X) do

        ${\rm{index}} = \mathop {\arg }\limits_{{i}} \min \displaystyle\sum\limits_{{{m}} = 1,{{m}} \ne {{i}}}^{{\rm{len}}} {{\rm{MI}}({{{X}}_{{i}}},{{{X}}_{{m}}})} $

        ${{Y}} = {{Y}} + {{{X}}_{{\rm{index}}}}$

        ${{X}} = {{X}} - {{{X}}_{{\rm{index}}}}$

       end

      end

    • Adaboost.R2算法是一种前向分布算法,即此模型是由基本分类器组成的加法模型:

      $${{f}}(x) = \sum\limits_{{{t}} = 1}^{{T}} {{{\rm{\alpha}} _t}} {{{B}}_t}(x)$$ (2)

      式中,${{{B}} _t}(x)$是基学习器;${{\rm{\alpha}} _t}$是基学习器的系数,其预测结果是各个基学习器预测结果的加权和,所以在训练过程中,依次迭代训练各个学习器及其系数。在这一训练过程中,为了增大学习器的收敛效果,采用平方误差以监督模型的学习,即:

      $$ {{L}}({y^i},{{f}}({x^i})) = {({y^i} - {{f}}({x^i}))^2} $$ (3)

      为简化计算,用归一化因子D将以上损失函数进行归一化:

      $$ {{L}}\left( {y,{{f}}\left( x \right)} \right) = \frac{{\left( {{y^i} - {{f}}\left( {{x^i}} \right)} \right)}}{{{D}}} $$ (4)

      式中,

      $$ {{D}} = \sup \left\{ {{y^i} - {{f}}\left( {{x^i}} \right)|i \in \left\{ {1,2, \cdots {{N}}} \right\}} \right\} $$ (5)

      根据Adaboost.R2,假设经过t−1轮迭代训练生成的预测学习器

      $$ \begin{split} & \quad\;{{{f}}_{t - 1}}(x) = {{{f}}_{t - 2}} + {{\rm{\alpha }}_{t - 1}}{{{B}}_{t - 1}}(x)=\\ & {{\rm{\alpha }}_1}{{{B}}_1}(x) + {{\rm{\alpha }}_2}{{{B}}_2}(x) +\cdots + {{\rm{\alpha }}_{t - 1}}{{{B}}_{t - 1}}(x) \end{split} $$ (6)

      则在第t轮迭代学习训练中得到${{\rm{\alpha}} _t}$${{{B}}_t}(x)$${{{f}}_{{t}}}({{x}})$为:${{{f}}_{{t}}}({{x}} ) = {{{f}}_{{{t - 1}}}}({{x}}) + {{\rm{\alpha}} _{{t}}}{{{B}}_{{t}}}({{x}})$,其中:

      $$ ({{\rm{\alpha}} _{{t}}},{{{B}}_{{t}}}({{x}})) = \arg \mathop {\min }\limits_{{\rm{\alpha}} ,{{B}}} \sum\limits_{{{i}} = 1}^{{N}} {\frac{{({{{y}}^{{i}}} - {{({{{f}}_{{{t - 1}}}}({{{x}}^{{i}}}) + {{\rm{\alpha}} _{{t}}}{{{B}}_{{t}}}({{{x}}^{{i}}}))}^2}}}{{{{({{D}}_{{t}}^{{i}})}^2}}}} \times {{p}}_{{t}}^{{i}} $$ (7)

      式中,${{p}}_{{t}}^{{i}} = \dfrac{{{{W}}{{_{{t}}^{{i}}}}}}{{\displaystyle\sum {{{W}}{{_{{t}}^{{i}}}}} }}\;\;\;\;{{i}} = 1,2,\cdots, {{N}}$

      Adaboost.R2的算法伪代码如算法2所示。

      算法2 Adaboost.R2

      输入:训练集(x1,y1), (x2,y2),···,(xN,yN)。其中xi为训练样本;yi为回归标签;最大迭代次数 T;当前迭代指数 t;学习损失 L;T 次迭代生成的学习器映射权重${W_t}$

      输出:预测函数${\rm{f}}({{x}}) = \displaystyle\sum\limits_{{{t}} = 1}^{{T}} {{{\rm{\alpha}} _{{t}}}} {{{B}}_{{t}}}({{x}})$

      t=1

      $L < 0.5$

      ${{W}}_{{t}}^{{i}} = \dfrac{1}{{{N}}}\;\;\;\forall i \in \left\{ {1,2, \cdots ,{{N}}} \right\}$

      while $L < 0.5$ do

      for $t$ to T do

       ${{D}} \leftarrow \sup ({{{y}}^{{i}}} - {{f}}({{{x}}^{{i}}}))\;\;\;{{i = }}1,2,\cdots,{{N}}$

       ${{p}}_{{t}}^{{i}} \leftarrow \frac{{{{W}}{{_{{t}}^{{i}}}}}}{{\displaystyle\sum {{{W}}{{_{{t}}^{{i}}}}} }}$

       ${{L}} \leftarrow \displaystyle\sum\limits_{{{i}} = 1}^{{m}} {\frac{{({{{y}}^{{i}}} - ({{{f}}_{{{t - 1}}}}({{{x}}^{{i}}}) + {{\rm{\alpha}} _{{t}}}{{{B}}_{{t}}}({{{x}}^{{i}}})))}}{{{{D}}_{\rm{t}}^{\rm{i}}}}} \times {{p}}_{{t}}^{{i}}$

       ${{{a}}_{{t}}} \leftarrow \dfrac{{{{L}}_{{t}}}}{{1 - {{L}}_{{t}}}}$

       ${{W}}_{{{t + 1}}}^{{i}} \leftarrow \dfrac{{{{W}}_{{t}}^{{i}}\alpha _{{t}}^{1 - {{L}}_{{t}}^{{i}}}}}{{Z_{{t}}}}$

      end

      end

    • Brats2018 数据集是一个开源的多序列的脑肿瘤MR数据集,由训练数据(train data)、验证数据(validation data)、测试数据(test data)3个部分组成。其中,只有训练部分公开了相关样本的存活情况,所以本文使用Brats2018的训练数据进行相关实验验证。Brats2018的训练数据包括210个高级别受试MR和75个低级别受试MR。每例受试MR中分别包含T1、T2、T1ce、Flair 4个序列的sMRI和肿瘤区域标注Groundtruth。在肿瘤区域标注Groundtruth中,Brats2018对脑肿瘤的ED、ET和NCR的不同区域用不同标签进行了标记。除此之外,Brats2018训练数据集还提供了163例高级别受试MR对应的生存周期、年龄、手术情况信息。本文利用Brats2018训练数据中拥有存活周期信息的160例受试MR进行训练和验证。图3为Brats2018训练数据集中某一受试样本的T1、T2、T1ce、Flair及分割Groundtruth像。其中图3a为T1序列;图3b为T2序列;图3c为T1ce序列;图3d为Flair序列;图3e为Groundtruth;图3f为Brats2018训练数据的存活周期分布直方图。

      图  3  Brats2018训练数据样本

    • 表1为通过以MI为评价准则对原始特征集进行特征选择之后得到的特征子集,其中包括14个T1序列的纹理特征,11个T2序列的纹理特征,13个Flair序列的纹理特征,16个T1ce序列的纹理特征以及ED、ET、NCR这3个肿瘤子区域的16个纹理特征,共70种特征。表1中特征名称的书写规则为:模态_纹理矩阵_矩阵属性。

    • 为了对比本文提出的脑肿瘤的生存周期预测框架的表现能力,本文在进行相关调研的基础上设计了5种对比实验,前3种为Brats2018 Challenge的脑肿瘤患者存活周期分析赛道中取得前3名算法:Xue[3]、Baid[5]、Weninger[7]。除此之外,本文还通过对当前领域中常用的传统方法的进行了调研,设计了ICA[20]+LR、PCA[21]+RF两种对比实验,其中ICA+LR的计算原理是:提取与本文相同的特征,以ICA为评价准则进行特征选择后用LR进行存活时间的预测。与ICA+LR类似,PCA+RF的计算原理是:提取与本文相同的特征,以PCA为评价准则进行特征选择后用RF进行存活时间的预测。

      本文在相同的实验环境下进行了以上对比方法的实验验证。为了直观反映本文提出的基于Adaboost的脑肿瘤患者存活周期分析系统的泛化能力,本文按照Brats2018 的评测方法进行评测,即将回归问题转为分类问题进行评测。在本文提出的分析模型输出相关样本的存活周期预测结果之后,按照Brats2018的方法将预测结果映射为3个类别:长期、中期、短期,再以3个存活类别的分析准确率作为评测结果。其中,长期为样本的存活周期大于15个月,中期为存活周期大于10个月小于15个月,短期为存活周期小于15个月。为了得到准确、可靠、有说服力的实验结果,本文对整个训练验证的过程进行5折交叉验证,并以5折交叉验证结果的均值作为最终输出结果,具体实验结果如表2所示。通过表2可以看出,本文提出的脑肿瘤患存活周期分析系统的预测准确率优于Xue、Baid和Weninger的方法,其中比Xue的方法提高了5%,比Baid提高了18.35%,比Weninger提高了9.66%,比ICA+LR提高了10.625%,比PCA+RF的方法提高了14.375%。从以上实验结果可以得出,对于基于MR的脑肿瘤患者存活分析来说,显著特征的选择至关重要。本文在特征选择阶段选取了一个包含了70种特征的特征子集,特征子集的个数既保证了特征中相对较低的冗余度,又最大程度地保留了显著特征。相较于Xue、Weninger的方法,本文提取和选择的特征是以上两种方法的8~35倍,提升了显著特征的范围,从而为提升脑肿瘤患者存活分析的准确率提供更多可学习特征。相较于Baid的方法,本文通过特征选择得到的特征子集是其应用特征的1/7,降低了可训练特征的冗余度,减小了噪声特征的影响,从而为提升脑肿瘤患者存活分析的准确率提供了低冗余有益信息。基于传统降维的方法在处理大量特征的时候可能会产生部分显著特征丢失的问题,从而限制了传统机器学习分析方法的分析效果,所以本文也比基于降维的传统方法有实质提升。

      表 1  特征子集

      序号特征名称序号特征名称
      1T1_glcm_Imc236Flair_gldm_SDE
      2T1_glrlm_RLNU37Flair_gldm_SDHGLE
      3T1_glrlm_SRHGLE38Flair_gldm_SDLGLE
      4T1_glszm_LAHGLE39T1ce_glcm_DE
      5T1_glszm_SZNUN40T1ce_glcm_SE
      6T1_glszm_SAE41T1ce_glrlm_LRHGLE
      7T1_glszm_SAHGLE42T1ce_glrlm_RLNU
      8T1_glszm_ZE43T1ce_glszm_GLNUN
      9T1_gldm_DV44T1ce_glszm_GLV
      10T1_gldm_LDHGLE45T1ce_glszm_LAHGLE
      11T1_gldm_LDLGLE46T1ce_glszm_LGLZE
      12T1_gldm_SDE47T1ce_glszm_SZNUN
      13T1_gldm_SDHGLE48T1ce_glszm_SALGLE
      14T1_gldm_SDLGLE49T1ce_glszm_ZE
      15T2_glcm_Imc150T1ce_gldm_LDHGLE
      16T2_glcm_Imc251T1ce_gldm_LDLGLE
      17T2_glrlm_RLNU52T1ce_gldm_SDE
      18T2_glszm_SZNUN53T1ce_gldm_SDHGLE
      19T2_glszm_SALGLE54T1ce_gldm_SDLGLE
      20T2_glszm_ZE55Ncr_glrlm_RE
      21T2_gldm_DV56Ncr_glrlm_RLNUN
      22T2_gldm_LDLGLE57Ncr_glszm_SAE
      23T2_gldm_SDE58Ncr_glszm_ZP
      24T2_gldm_SDHGLE59Ed_glszm_GLNU
      25T2_gldm_SDLGLE60Ed_glszm_SZNUN
      26Flair_glrlm_RLNU61Ed_glszm_SAHGLE
      27Flair_glrlm_SRHGLE62Ed_glszm_SALGLE
      28Flair_glszm_SZNUN63Ed_gldm_SDHGLE
      29Flair_glszm_SAE64Ed_gldm_SDLGLE
      30Flair_glszm_SALGLE65Et_glrlm_GLNU
      31Flair_glszm_ZP66Et_glrlm_RV
      32Flair_glszm_ZV67Et_glszm_LALGLE
      33Flair_gldm_DV68Et_gldm_DNU
      34Flair_gldm_LDHGLE69Et_gldm_DV
      35Flair_gldm_LDLGLE70Et_gldm_GLNU

      表 2  实验结果

      算法准确率 /%
      Xue48.750
      Baid35.400
      Weninger44.090
      ICA+LR43.125
      PCA+RF39.375
      本文53.750
    • 为了提高脑肿瘤患者存活周期分析的准确性,本文提出一种基于Adaboost的脑肿瘤患者存活周期预测系统,通过对脑肿瘤患者多序列MR进行纹理特征提取、特征选择以及分析模型训练等一系列工作,完成了对脑肿瘤患者存活周期的分析。通过对Brsts2018训练数据的交叉验证实验表明,本文提出的分析系统的分析准确率优于当前领域的一些典型算法。

参考文献 (21)

目录

    /

    返回文章
    返回