-
心脏外科手术因其手术器官特殊、手术环节复杂等,其围术期的病死率较高[1-2],因此手术后重症监护室(intensive care unit, ICU)需要及时准确地评估病情及住院时间。
临床研究发现,患者在ICU的住院时间会从根本上影响患者的预后效果[3]。住院时间是一个复杂的衡量指标,受很多因素的影响,包括患者人口统计数据、治疗复杂性、并发症和出院计划等,量化和优化患者在ICU中的治疗时间对医疗成本的控制和临床服务质量的提高具有重要作用[4-5]。较长的ICU治疗时间意味着更多的重症监护资源和高昂的医疗费用[6],ICU治疗时间延长也可能影响ICU护理质量,增加医疗成本,且可能使病情恶化,并可能减少对最需要患者的照护[7]。
因此,合理预测心脏手术患者的治疗时间,对ICU患者手术治疗效果的评估有重要意义。但在临床操作时,手术患者住院时间的预测通常依赖医护人员的经验,本文探索基于机器学习方法预测重症患者心脏手术后ICU的治疗时间。
在ICU患者临床数据分析中,有研究使用机器学习预测患者的死亡率或疾病发生率,文献[8]采用机器学习方法预测脓毒症患者死亡率,其预测结果比简化急性生理学评分等传统评分量表更为准确。文献[9]以7天为界,对外科重症监护室中的患者进行分类和预测,通过神经网络方法预测随着时间的推移而降低的慢性变化。
在重症感染患者ICU治疗时间的危险因素研究方面,文献[10]分析影响重症感染患者ICU治疗时间的危险因素,发现血清乳酸水平是重要的危险因素之一。文献[11]采用统计方法对ICU治疗时间进行影响因素分析,发现慢性健康状况系统Ⅱ评分、血乳酸浓度、平均动脉压、血清钠浓度是治疗时间的影响因素。文献[12]建立实时预测儿科重症监护室住院时间的模型,并将该模型集成到计算机决策支持系统中,以改善患者流程管理。该模型将预测的住院时间与实际住院时间进行实时比较,研究变量包括年龄、入院状态、是否再次入院,时间变量包括目前住院时间、医疗状况、通气情况、实验室指标、饮食情况、活动情况和异物情况等。
本文针对临床上及时分析重症患者ICU治疗时间影响因素以及准确预测其所需住院时间,研究基于最小绝对收缩选择算子(least absolute shrinkage and selection operator, Lasso)的心脏手术患者重症监护室住院时间的重要预测因子优化方法,构建基于梯度提升决策树算法的心外科手术患者ICU住院时间预测模型。实验结果可为辅助临床预测、临床决策支持系统提供算法支撑。
-
本文研究流程如图1所示,首先在MIMIC-IV数据库中筛选患者,从10938名患者中选出7567名患者,然后使用Lasso回归从126个预测因子中筛选出41个重要的预测因子,结合筛选的预测因子和全部预测因子分别使用传统逻辑回归(logistic regression, LR)算法和GBDT算法进行训练。训练模型前,采用网格搜索优化模型参数。
本文实验使用计算机CPU处理器为Intel Core i5-8500 3.00 GHz,内存为8 GB。算法使用Python语言,集成开发环境使用jupyter notebook,且使用了第三方工具包scikit-learn。
-
本文通过国际疾病分类手术码ICD-9-CM-3纳入心脏手术患者数据,最初纳入了10938名接受心脏手术的患者。然后,将缺失值超过15%的患者排除在分析之外[17],18岁以下的患者和死亡患者也被排除在外,最终共有7567名患者被纳入,纳入患者数据的平均心率为81.69,平均格拉斯哥昏迷评分为8.46,在ICU的平均住院时间为3.12天。
-
本文提取了患者在ICU住院前12 h内的数据。为了尽可能纳入所有影响住院时间的因子,提取了心率、收缩压、体温、通气状态、格拉斯哥昏迷评分等38个特征。对于重复测量的变量如心率、白细胞计数等,根据其生理意义在12 h内统计最大值、最小值和平均值。对于唯一的变量,如年龄,直接使用原始值。对于非数字变量,如入院类型和种族,使用one-hot编码处理。最终,共有126个预测因子作为模型的输入。
目前,对于住院时间的研究通过单变量分析住院时间的影响因素,或者采用简单二分类对患者住院时间进行预测,存在明显不足[7,11,18]。为了对患者住院时间进行更细致地划分,本文根据专业心外科团队的建议,将结果指标中患者的住院时间分为4类:少于3天、大于等于3天且小于7天、大于等于7天且小于14天、大于等于14天,建立四分类预测模型。这种划分相比二分类模型更有助于明确衡量患者的住院时间,有利于准确地评估患者病情以及预后效果。
-
本文使用Lasso回归筛选重要的预测因子,参数
$ \lambda $ 为0.05。经过Lasso算法筛选,从126个预测因子中得到对ICU住院时间影响较大的41个预测因子,具体如表1所示,预测因子中部分权重较大的预测因子权重值如图2所示。变量名称 变量名称 实验室检测变量
碱过剩
二氧化碳总量
氯化物
游离钙
乳酸盐
酸碱度
碳酸氢盐
血小板计数
碳酸氢根
钾离子
肌酐
钠离子
白细胞
红细胞比容
血红蛋白
血氧仪测定氧饱和度
分钟通气量低限报警
分钟通气量高限报警
常规检测变量
收缩压舒张压
体温
心率
动脉血二氧化碳分压
动脉血氧分压
GCS—睁眼反应
GCS—语言反应
GCS—运动反应
其他变量
年龄
心电图
心脏导管
心脏骤停
肺导管
通气
慢性疾病
手术操作计数
诊断计数
入院类型
重症监护室类别
—注:GCS为格拉斯哥昏迷评分 从图2可见,预测因子中诊断个数和手术个数两个变量对ICU住院时间有显著影响,权重均在0.8以上,显然患者被诊断出患有的疾病越多,需要进行的手术越多,住院时间也会越长,这是一个符合临床预期的结果。预测因子乳酸盐浓度目前在ICU中被用作诊断工具和预后指标,因为乳酸盐浓度越高,死亡的风险越大,这一结果与文献[8,19]一致,这在一定程度上提示医护人员在护理患者时应注意的细节。通过Lasso回归分析,血清肌酐浓度(权重为0.192)是第七大最重要的预测指标,因为最小肌酐浓度是预测急性肾损伤最重要的变量,这一结果与文献[20]一致。此外,心率和血压、格拉斯哥昏迷评分(GCS)、入院类型和ICU病房类型也对心脏外科患者在ICU的住院时间有一定影响。
基于Lasso算法的预测因子筛选结果符合其临床意义,并与相关文献结果一致,说明通过机器学习方法进行ICU住院时间影响因子筛选是可行的,有助于临床决策支持系统的开发。
-
训练模型前,通过网格搜索优化模型参数,穷举搜索并将参数通过交叉验证以优化得到最优模型。网格搜索分为粗搜索和细搜索两个步骤[20],通过粗搜索确定参数的近似范围,然后进一步通过细搜索确定在近似范围内的准确参数值。
通过网格搜索,确定本文中GBDT分类模型的重要参数:每个弱学习器的权重缩减系数为0.1,弱学习器的最大迭代次数为40,决策树最大深度为10,叶子节点最少样本数为90,内部节点再划分所需最小样本数为300,最大的叶子节点个数为6,一个叶子节点所需的总权重的最小加权分数为0。
-
在本文实验中,每次训练随机抽取全体80%的数据作为训练集,20%的数据作为测试集,训练1000次后,最终评估模型效果。
图3显示,训练全部126个预测因子的逻辑回归算法平均准确度为0.603(95%置信区间 CI:[0.602, 0.604]),训练全部预测因子的GBDT算法平均准确度为0.688(95%置信区间 CI:[0.687, 0.689]),训练筛选出的41个预测因子的GBDT算法平均准确度为0.687(95%置信区间 CI:[0.687, 0.688])。
可以看出,训练所有预测因子的GBDT模型与传统LR模型相比预测结果更加准确。GBDT作为一种Boosting算法,由多棵决策树组成,最终结果是所有决策树的总和,这使其在区分不同病理特征和关联的病理特征组合方面具有天然优势[21]。本文中,这一优势体现在重新衡量患者的预测因子时,可以处理非线性数据,对异常值具有很强的鲁棒性,这使得它适合ICU复杂的医疗环境。
对比训练重要预测因子的GBDT模型与训练所有预测因子的GBDT模型,结果的平均准确度基本相同,说明在减少了大量预测因子的情况下,模型仍能取得较好的预测效果,这样通过Lasso回归筛选并减少住院时间的预测因子,将更有助于减少临床数据收集的工作量,并保证临床决策支持系统的快速运行。
-
本文随机抽取1514名(总数据的20%)患者作为测试集,其中65%的患者ICU住院时间不超过3天。针对训练重要预测因子的GBDT模型预测值与实际值的差异进行分析,表3为二者的混淆矩阵,图4反映了4种类别上二者的差异。
预测住院
时间/天真实住院时间/天 <3 ≥3且<7 ≥7且<14 ≥14 <3 911 246 26 3 ≥3且<7 72 135 40 12 ≥7且<14 2 6 9 1 ≥14 6 10 6 29 结果显示,模型对住院时间小于3天的患者预测效果最好,真实值中92%(911名)的患者被正确预测。对于住院时间在3~7天的患者,仅34%(135名)被正确分类,大多数患者被归类为住院时间小于3天,这一定程度上是由于数据分布所导致的。住院时间小于3天的患者占所有患者的65%(991名),因此对某一名患者的预测结果会更偏向于住院时间小于3天。而7~14天的患者的预测正确率最低,仅为11%(9名),这主要是因为训练样本过少所导致的。对于最后一类住院时间大于等于14天的患者,算法取得了较好的预测效果,原因在于ICU长期住院患者的生理等各类指标与短期住院患者有明显的不同,因此更容易被正确分类。
总体对比可以看出,本文GBDT算法在预测心外科患者ICU住院时间时取得了较好的效果,能够准确预测心外科ICU患者的住院时间,对临床决策有一定的指导作用。
Prediction Model of Intensive Care Unit Length of Stay for Patients with Cardiac Surgery
doi: 10.12178/1001-0548.2022004
- Received Date: 2021-12-28
- Rev Recd Date: 2022-02-20
- Available Online: 2023-02-20
- Publish Date: 2022-07-09
-
Key words:
- cardiac surgery /
- intensive care unit /
- length of stay /
- machine learning
Abstract: The analysis and prediction of influencing factors of length of stay in intensive care unit (ICU) of cardiac surgery patients is conducive to the early intervention and cost control of inpatients, and is of great significance to the treatment and nursing of cardiac surgery patients. This paper uses the intensive care database medical information mart for intensive care IV (MIMIC-IV) as the experimental data set, 7567 patients were included. 41 important predictors were selected from 126 influencing factors by least absolute shrinkage and selection operator (Lasso). This paper constructs a prediction model of length of stay in cardiac surgery intensive care unit based on gradient enhanced decision tree (GBDT) algorithm. The experimental results show that under the condition of training all predictors, the average accuracy of GBDT model is 0.688 higher than that of traditional logistic regression algorithm, which is 0.603. The GBDT algorithm with the selected important predictors has the same effect on the final average accuracy as that with all factors, which shows that this method can optimize data collection, accurately predict length of stay in ICU, and provide algorithm support for clinical decision support system.
Citation: | ZHANG Ping, WU Nianyue, ZHANG Haotian, LI Gongli, LIU Jialin, LI Ke. Prediction Model of Intensive Care Unit Length of Stay for Patients with Cardiac Surgery[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(4): 500-505. doi: 10.12178/1001-0548.2022004 |