Volume 51 Issue 4
Jul.  2022
Article Contents

ZHANG Ping, WU Nianyue, ZHANG Haotian, LI Gongli, LIU Jialin, LI Ke. Prediction Model of Intensive Care Unit Length of Stay for Patients with Cardiac Surgery[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(4): 500-505. doi: 10.12178/1001-0548.2022004
Citation: ZHANG Ping, WU Nianyue, ZHANG Haotian, LI Gongli, LIU Jialin, LI Ke. Prediction Model of Intensive Care Unit Length of Stay for Patients with Cardiac Surgery[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(4): 500-505. doi: 10.12178/1001-0548.2022004

Prediction Model of Intensive Care Unit Length of Stay for Patients with Cardiac Surgery

doi: 10.12178/1001-0548.2022004
  • Received Date: 2021-12-28
  • Rev Recd Date: 2022-02-20
  • Available Online: 2023-02-20
  • Publish Date: 2022-07-09
  • The analysis and prediction of influencing factors of length of stay in intensive care unit (ICU) of cardiac surgery patients is conducive to the early intervention and cost control of inpatients, and is of great significance to the treatment and nursing of cardiac surgery patients. This paper uses the intensive care database medical information mart for intensive care IV (MIMIC-IV) as the experimental data set, 7567 patients were included. 41 important predictors were selected from 126 influencing factors by least absolute shrinkage and selection operator (Lasso). This paper constructs a prediction model of length of stay in cardiac surgery intensive care unit based on gradient enhanced decision tree (GBDT) algorithm. The experimental results show that under the condition of training all predictors, the average accuracy of GBDT model is 0.688 higher than that of traditional logistic regression algorithm, which is 0.603. The GBDT algorithm with the selected important predictors has the same effect on the final average accuracy as that with all factors, which shows that this method can optimize data collection, accurately predict length of stay in ICU, and provide algorithm support for clinical decision support system.
  • [1] HARISH, RAMAKRISHNA. The high-cardiovascular risk patient for non-cardiac surgery: Guidelines for the perioperative clinician[C]//A New Era in Cardiology Research and Therapy-BIT’s 8th Annual International Congress of Cardiology (ICC-2022). Barcelona: Conference Abstract Book, 2016: 194-195.
    [2] 曾爽, 林雷, 陈春. 右美托咪定在心脏手术围术期应用的研究进展[J]. 医学综述, 2018, 24(6): 1217-1223.

    ZENG S, LIN L, CHEN C. Research progress of the perioperative application of dexmedetomidine in cardiac surgery[J]. Medical Recapitulate, 2018, 24(6): 1217-1223.
    [3] ELY E W, GAUTAM S, MARGOLIN R, et al. The impact of delirium in the intensive care unit on hospital length of stay[J]. Intensive Care Med, 2001, 27: 1892-1900. doi:  10.1007/s00134-001-1132-2
    [4] VINCENT J L, SINGER M. Critical care: Advances and future perspectives[J]. Lancet, 2010, 376(9749): 1354-1361. doi:  10.1016/S0140-6736(10)60575-2
    [5] APPELROS P. Prediction of length of stay for stroke patients[J]. Acta Neurologica Scandinavica, 2007, 9: 15-19.
    [6] FILIPE P, MANUEL F S, lVARO S, et al. Adoption of pervasive intelligent information systems in intensive medicine[J]. Procedia Technology, 2013, 9(4): 1022-1032.
    [7] LEO A C, ROGER R M, DAVID J S, et al. "Big data" in the intensive care unit. Closing the data loop[J]. American Journal of Respiratory and Critical Care Medicine, 2013, 187(11): 1157-1160. doi:  10.1164/rccm.201212-2311ED
    [8] SYED W A S, YU J J, MOON H J, et al. A machine learning-based model for 1-year mortality prediction in patients admitted to an intensive care unit with a diagnosis of sepsis[J]. Medicina Intensiva, 2020, 44(3): 160-170. doi:  10.1016/j.medin.2018.07.016
    [9] BUCHMAN T G, KUBOS K L, SEIDLER A J, et al. A comparison of statistical and connectionist models for the prediction of chronicity in a surgical intensive care unit[J]. Critical Care Medicine, 1994, 22(5): 750-751. doi:  10.1097/00003246-199405000-00008
    [10] 林秋劲. 重症感染患者ICU治疗时间的影响因素分析[J]. 实用临床医学, 2017, 18(4): 24-25, 37.

    LIN Q J. Factors influencing ICU treatment time in patients with severe infection[J]. Practical Clinical Medicine, 2017, 18(4): 24-25, 37.
    [11] 王磊, 旦叶瑶. 影响重症感染患者ICU治疗时间的危险因素[J]. 安徽医专学报, 2021, 20(5): 40-41, 44.

    WANG L, DAN Y Y. Risk factors that affect the duration of ICU treatment in patients with severe infection[J]. Journal of Anhui Medical College, 2021, 20(5): 40-41, 44.
    [12] LEVIN S R, HARLEY E T, FACKLER J C, et al. Real-time forecasting of pediatric intensive care unit length of stay using computerized provider orders[J]. Critical Care Medicine, 2012, 40(11): 3058-3059. doi:  10.1097/CCM.0b013e31825bc399
    [13] FRIEDMAN J H. Greedy function approximation: A gradient boosting machine[J]. The Annals of Statistics, 2001, 29(5): 1189-1232. doi:  10.1214/aos/1013203450
    [14] ROBERT T. Regression shrinkage and selection via the lasso[J]. Journal of the Royal Statistical Society Series B (Methodological), 1996, 58(1): 267-288. doi:  10.1111/j.2517-6161.1996.tb02080.x
    [15] MUTHUKRISHNAN R, ROHINI R. LASSO: A feature selection technique in predictive modeling for machine learning[C]//2016 IEEE International Conference on Advances in Computer Applications (ICACA). Coimbatore: IEEE, 2016: 18-20.
    [16] JONAON A, BULAGRELLI L, POLLARD T, et al. "MIMIC-IV" (version 1.0)[EB/OL]. [2021-3-21]. http://physionet.org/content/mimiciv/1.0/.
    [17] LIN K, HU Y H, KONG G L. Predicting in-hospital mortality of patients with acute kidney injury in the ICU using random forest model[J]. International Journal of Medical Informatics, 2019, 125: 55-61. doi:  10.1016/j.ijmedinf.2019.02.002
    [18] QI X L, JIANG Z C, YU Q, et al. Machine learning-based CT radiomics model for predicting hospital stay in patients with pneumonia associated with SARS-CoV-2 infection: A multicenter study[EB/OL]. [2020-03-03]. https://www.medrxiv.org/content/10.1101/2020.02.29.20029603v1.
    [19] JOSHUA P P, HAHN S L, JONATHAN J P, et al. Comparing machine learning algorithms for predicting acute kidney injury[J]. American Surgeon, 2019, 85(7): 725-729. doi:  10.1177/000313481908500731
    [20] FRANCIS P W, WEI Y, CARLOS A M, et al. Dialysis versus nondialysis in patients with AKI: A propensity-matched cohort study[J]. Biochemical Techniques, 2014, 9(4): 673-681.
    [21] 张桂凤. 基于Adaboost的脑肿瘤患者存活周期分析[J]. 电子科技大学学报, 2020, 49(3): 467-472, 480.

    ZHANG G F. Life cycle analysis for brain tumor patients based on adaboost[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(3): 467-472, 480.
  • 加载中
通讯作者: 陈斌, bchen63@163.com
  • 1. 

    沈阳化工大学材料科学与工程学院 沈阳 110142

  1. 本站搜索
  2. 百度学术搜索
  3. 万方数据库搜索
  4. CNKI搜索

Figures(4)  / Tables(2)

Article Metrics

Article views(4028) PDF downloads(64) Cited by()

Related
Proportional views

Prediction Model of Intensive Care Unit Length of Stay for Patients with Cardiac Surgery

doi: 10.12178/1001-0548.2022004

Abstract: The analysis and prediction of influencing factors of length of stay in intensive care unit (ICU) of cardiac surgery patients is conducive to the early intervention and cost control of inpatients, and is of great significance to the treatment and nursing of cardiac surgery patients. This paper uses the intensive care database medical information mart for intensive care IV (MIMIC-IV) as the experimental data set, 7567 patients were included. 41 important predictors were selected from 126 influencing factors by least absolute shrinkage and selection operator (Lasso). This paper constructs a prediction model of length of stay in cardiac surgery intensive care unit based on gradient enhanced decision tree (GBDT) algorithm. The experimental results show that under the condition of training all predictors, the average accuracy of GBDT model is 0.688 higher than that of traditional logistic regression algorithm, which is 0.603. The GBDT algorithm with the selected important predictors has the same effect on the final average accuracy as that with all factors, which shows that this method can optimize data collection, accurately predict length of stay in ICU, and provide algorithm support for clinical decision support system.

ZHANG Ping, WU Nianyue, ZHANG Haotian, LI Gongli, LIU Jialin, LI Ke. Prediction Model of Intensive Care Unit Length of Stay for Patients with Cardiac Surgery[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(4): 500-505. doi: 10.12178/1001-0548.2022004
Citation: ZHANG Ping, WU Nianyue, ZHANG Haotian, LI Gongli, LIU Jialin, LI Ke. Prediction Model of Intensive Care Unit Length of Stay for Patients with Cardiac Surgery[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(4): 500-505. doi: 10.12178/1001-0548.2022004
  • 心脏外科手术因其手术器官特殊、手术环节复杂等,其围术期的病死率较高[1-2],因此手术后重症监护室(intensive care unit, ICU)需要及时准确地评估病情及住院时间。

    临床研究发现,患者在ICU的住院时间会从根本上影响患者的预后效果[3]。住院时间是一个复杂的衡量指标,受很多因素的影响,包括患者人口统计数据、治疗复杂性、并发症和出院计划等,量化和优化患者在ICU中的治疗时间对医疗成本的控制和临床服务质量的提高具有重要作用[4-5]。较长的ICU治疗时间意味着更多的重症监护资源和高昂的医疗费用[6],ICU治疗时间延长也可能影响ICU护理质量,增加医疗成本,且可能使病情恶化,并可能减少对最需要患者的照护[7]

    因此,合理预测心脏手术患者的治疗时间,对ICU患者手术治疗效果的评估有重要意义。但在临床操作时,手术患者住院时间的预测通常依赖医护人员的经验,本文探索基于机器学习方法预测重症患者心脏手术后ICU的治疗时间。

    在ICU患者临床数据分析中,有研究使用机器学习预测患者的死亡率或疾病发生率,文献[8]采用机器学习方法预测脓毒症患者死亡率,其预测结果比简化急性生理学评分等传统评分量表更为准确。文献[9]以7天为界,对外科重症监护室中的患者进行分类和预测,通过神经网络方法预测随着时间的推移而降低的慢性变化。

    在重症感染患者ICU治疗时间的危险因素研究方面,文献[10]分析影响重症感染患者ICU治疗时间的危险因素,发现血清乳酸水平是重要的危险因素之一。文献[11]采用统计方法对ICU治疗时间进行影响因素分析,发现慢性健康状况系统Ⅱ评分、血乳酸浓度、平均动脉压、血清钠浓度是治疗时间的影响因素。文献[12]建立实时预测儿科重症监护室住院时间的模型,并将该模型集成到计算机决策支持系统中,以改善患者流程管理。该模型将预测的住院时间与实际住院时间进行实时比较,研究变量包括年龄、入院状态、是否再次入院,时间变量包括目前住院时间、医疗状况、通气情况、实验室指标、饮食情况、活动情况和异物情况等。

    本文针对临床上及时分析重症患者ICU治疗时间影响因素以及准确预测其所需住院时间,研究基于最小绝对收缩选择算子(least absolute shrinkage and selection operator, Lasso)的心脏手术患者重症监护室住院时间的重要预测因子优化方法,构建基于梯度提升决策树算法的心外科手术患者ICU住院时间预测模型。实验结果可为辅助临床预测、临床决策支持系统提供算法支撑。

    • 梯度提升决策树算法[13](gradient boosting decision tree, GBDT)是一种迭代的决策树算法,通过多轮迭代生成弱分类器,每个分类器都在前一轮分类器残差的基础上进行训练。对弱分类器的要求通常足够简单,且具有低方差和高偏差。训练过程是为了减少偏差以提高最终分类器的准确率,每次训练的目的都是为了减少最后的残差。为了连续地减小残余误差,需要在残差减小的梯度方向上训练新的模型。每个新模型都是在梯度方向上减小前一个模型的残差。

      每一棵决策树$ {T}_{m} $按照分枝增益最大的方式进行增长,最终的回归树$ {T}_{m} $的训练目标则是真实值与$ ({T}_{1}+{T}_{2}+\cdots +{T}_{m-1}) $结果的残差最小,整体而言GBDT是一种基于Boosting思想的加性模型。

      该算法的主要步骤如下。

      1) 初始化弱学习器:

      式中,N为样本数;L为损失函数。

      2) 对于样本$ i=1,\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }2\cdots, N $,计算负梯度:

      3) 计算第m棵树的参数:

      式中,h为决策树函数。

      4) 最优化第m棵树的权重:

      5) 最终得到强学习器表达式:

      本文数据集里存在较多的连续型数据与离散型数据,同时,需要对于医护记录出错导致的异常值有很强鲁棒性的算法。GBDT算法作为针对真实分布拟合最好的算法之一,较适合ICU这种复杂的医疗环境的数据分析。

    • Lasso[14]是一种正规化线性回归方法,在特征选择方面有广泛应用[15]。Lasso回归的特点是在拟合广义线性模型时进行变量筛选和复杂度调整。因此,无论目标因变量是连续的、二元的还是多元离散的,都可以使用Lasso回归进行建模和预测。通常当变量的数量大于数据点的数量时,或者当离散变量具有太多唯一值时,可能产生过拟合。因此,本文使用Lasso回归来防止过度拟合。同时,Lasso回归能忽略不重要的特征,构建一个稀疏且更易解释的模型。

      Lasso回归的表达式为:

      算法的目的是求最小化的目标函数$ {\hat{\beta }}_{{\rm{Lasso}}} $$\displaystyle\sum\limits_{i = 1}^n {{{\left( {{y_i} - \displaystyle\sum\limits_{j = 1}^P {{\beta _j}{x_{ij}}} } \right)}^2}}$表示模型拟合程度,$\lambda \displaystyle\sum\limits_{j = 1}^P {\left| {{\beta _j}} \right|}$作为惩罚项,主要调节参数为$ \lambda $。参数$ \lambda $越大,表示惩罚力度越大,则保留的特征变少;参数$ \lambda $越小,表示惩罚力度越小,则保留的特征越多,特征筛选的数量通过对$ \lambda $的控制实现。

      本文通过调节参数$ \lambda $,从所有预测影响因子中筛选出重要的因子,作为分析影响患者住院时间的主要因素。本文算法可忽略不重要的部分特征,防止过度拟合,最终构建了一个稀疏且更易解释的住院时间预测模型。

    • 本文使用的是2021年3月16日发布的MIMIC-IV 1.0。 MIMIC-IV数据库包含2008年−2019年贝斯以色列女执事医疗中心ICU的4万多名患者的信息(https://physionet.org/content/mimiciv/1.0/)[16],该数据库是一个大型、开放的数据库,包括实验室计量结果、药品、保险、护理记录、生命体征计量等多种数据信息。也是目前重症领域中数据完整性较好的数据库,拥有近年来心脏手术患者的治疗流程、预后情况等记录。本文模型的预测结果不会因为医疗机构治疗水平的提升以及心脏外科的发展而产生偏差,时效性较好。

    • 本文研究流程如图1所示,首先在MIMIC-IV数据库中筛选患者,从10938名患者中选出7567名患者,然后使用Lasso回归从126个预测因子中筛选出41个重要的预测因子,结合筛选的预测因子和全部预测因子分别使用传统逻辑回归(logistic regression, LR)算法和GBDT算法进行训练。训练模型前,采用网格搜索优化模型参数。

      本文实验使用计算机CPU处理器为Intel Core i5-8500 3.00 GHz,内存为8 GB。算法使用Python语言,集成开发环境使用jupyter notebook,且使用了第三方工具包scikit-learn。

    • 本文通过国际疾病分类手术码ICD-9-CM-3纳入心脏手术患者数据,最初纳入了10938名接受心脏手术的患者。然后,将缺失值超过15%的患者排除在分析之外[17],18岁以下的患者和死亡患者也被排除在外,最终共有7567名患者被纳入,纳入患者数据的平均心率为81.69,平均格拉斯哥昏迷评分为8.46,在ICU的平均住院时间为3.12天。

    • 本文提取了患者在ICU住院前12 h内的数据。为了尽可能纳入所有影响住院时间的因子,提取了心率、收缩压、体温、通气状态、格拉斯哥昏迷评分等38个特征。对于重复测量的变量如心率、白细胞计数等,根据其生理意义在12 h内统计最大值、最小值和平均值。对于唯一的变量,如年龄,直接使用原始值。对于非数字变量,如入院类型和种族,使用one-hot编码处理。最终,共有126个预测因子作为模型的输入。

      目前,对于住院时间的研究通过单变量分析住院时间的影响因素,或者采用简单二分类对患者住院时间进行预测,存在明显不足[7,11,18]。为了对患者住院时间进行更细致地划分,本文根据专业心外科团队的建议,将结果指标中患者的住院时间分为4类:少于3天、大于等于3天且小于7天、大于等于7天且小于14天、大于等于14天,建立四分类预测模型。这种划分相比二分类模型更有助于明确衡量患者的住院时间,有利于准确地评估患者病情以及预后效果。

    • 本文使用Lasso回归筛选重要的预测因子,参数$ \lambda $为0.05。经过Lasso算法筛选,从126个预测因子中得到对ICU住院时间影响较大的41个预测因子,具体如表1所示,预测因子中部分权重较大的预测因子权重值如图2所示。

      变量名称变量名称
      实验室检测变量
      碱过剩
      二氧化碳总量
      氯化物
      游离钙
      乳酸盐
      酸碱度
      碳酸氢盐
      血小板计数
      碳酸氢根
      钾离子
      肌酐
      钠离子
      白细胞
      红细胞比容
      血红蛋白
      血氧仪测定氧饱和度
      分钟通气量低限报警
      分钟通气量高限报警
      常规检测变量
      收缩压
      舒张压
      体温
      心率
      动脉血二氧化碳分压
      动脉血氧分压
      GCS—睁眼反应
      GCS—语言反应
      GCS—运动反应
      其他变量
      年龄
      心电图
      心脏导管
      心脏骤停
      肺导管
      通气
      慢性疾病
      手术操作计数
      诊断计数
      入院类型
      重症监护室类别
      注:GCS为格拉斯哥昏迷评分

      图2可见,预测因子中诊断个数和手术个数两个变量对ICU住院时间有显著影响,权重均在0.8以上,显然患者被诊断出患有的疾病越多,需要进行的手术越多,住院时间也会越长,这是一个符合临床预期的结果。预测因子乳酸盐浓度目前在ICU中被用作诊断工具和预后指标,因为乳酸盐浓度越高,死亡的风险越大,这一结果与文献[8,19]一致,这在一定程度上提示医护人员在护理患者时应注意的细节。通过Lasso回归分析,血清肌酐浓度(权重为0.192)是第七大最重要的预测指标,因为最小肌酐浓度是预测急性肾损伤最重要的变量,这一结果与文献[20]一致。此外,心率和血压、格拉斯哥昏迷评分(GCS)、入院类型和ICU病房类型也对心脏外科患者在ICU的住院时间有一定影响。

      基于Lasso算法的预测因子筛选结果符合其临床意义,并与相关文献结果一致,说明通过机器学习方法进行ICU住院时间影响因子筛选是可行的,有助于临床决策支持系统的开发。

    • 训练模型前,通过网格搜索优化模型参数,穷举搜索并将参数通过交叉验证以优化得到最优模型。网格搜索分为粗搜索和细搜索两个步骤[20],通过粗搜索确定参数的近似范围,然后进一步通过细搜索确定在近似范围内的准确参数值。

      通过网格搜索,确定本文中GBDT分类模型的重要参数:每个弱学习器的权重缩减系数为0.1,弱学习器的最大迭代次数为40,决策树最大深度为10,叶子节点最少样本数为90,内部节点再划分所需最小样本数为300,最大的叶子节点个数为6,一个叶子节点所需的总权重的最小加权分数为0。

    • 在本文实验中,每次训练随机抽取全体80%的数据作为训练集,20%的数据作为测试集,训练1000次后,最终评估模型效果。

      图3显示,训练全部126个预测因子的逻辑回归算法平均准确度为0.603(95%置信区间 CI:[0.602, 0.604]),训练全部预测因子的GBDT算法平均准确度为0.688(95%置信区间 CI:[0.687, 0.689]),训练筛选出的41个预测因子的GBDT算法平均准确度为0.687(95%置信区间 CI:[0.687, 0.688])。

      可以看出,训练所有预测因子的GBDT模型与传统LR模型相比预测结果更加准确。GBDT作为一种Boosting算法,由多棵决策树组成,最终结果是所有决策树的总和,这使其在区分不同病理特征和关联的病理特征组合方面具有天然优势[21]。本文中,这一优势体现在重新衡量患者的预测因子时,可以处理非线性数据,对异常值具有很强的鲁棒性,这使得它适合ICU复杂的医疗环境。

      对比训练重要预测因子的GBDT模型与训练所有预测因子的GBDT模型,结果的平均准确度基本相同,说明在减少了大量预测因子的情况下,模型仍能取得较好的预测效果,这样通过Lasso回归筛选并减少住院时间的预测因子,将更有助于减少临床数据收集的工作量,并保证临床决策支持系统的快速运行。

    • 本文随机抽取1514名(总数据的20%)患者作为测试集,其中65%的患者ICU住院时间不超过3天。针对训练重要预测因子的GBDT模型预测值与实际值的差异进行分析,表3为二者的混淆矩阵,图4反映了4种类别上二者的差异。

      预测住院
      时间/天
      真实住院时间/天
      <3≥3且<7≥7且<14≥14
      <3911246263
      ≥3且<7721354012
      ≥7且<142691
      ≥14610629

      结果显示,模型对住院时间小于3天的患者预测效果最好,真实值中92%(911名)的患者被正确预测。对于住院时间在3~7天的患者,仅34%(135名)被正确分类,大多数患者被归类为住院时间小于3天,这一定程度上是由于数据分布所导致的。住院时间小于3天的患者占所有患者的65%(991名),因此对某一名患者的预测结果会更偏向于住院时间小于3天。而7~14天的患者的预测正确率最低,仅为11%(9名),这主要是因为训练样本过少所导致的。对于最后一类住院时间大于等于14天的患者,算法取得了较好的预测效果,原因在于ICU长期住院患者的生理等各类指标与短期住院患者有明显的不同,因此更容易被正确分类。

      总体对比可以看出,本文GBDT算法在预测心外科患者ICU住院时间时取得了较好的效果,能够准确预测心外科ICU患者的住院时间,对临床决策有一定的指导作用。

    • 本文使用Lasso回归筛选出重要的预测因子,其中诊断个数、手术个数、乳酸盐浓度和血氧饱和度等因子对住院时间有显著影响,结果符合临床意义和临床研究结果,增加了机器学习模型的可解释性,有利于进一步临床决策支持系统的开发。

      本文提出的基于GBDT算法的心外科手术患者重症监护室住院时间预测模型,取得了较好的预测效果,有利于长时间住院的ICU患者的早期干预,有利于智能方法合理配置医疗资源,提高治疗效率。

Reference (21)

Catalog

    /

    DownLoad:  Full-Size Img  PowerPoint
    Return
    Return