留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

心外科手术患者重症监护室住院时间预测模型研究

张平 吴念悦 张浩天 李功利 刘加林 李科

张平, 吴念悦, 张浩天, 李功利, 刘加林, 李科. 心外科手术患者重症监护室住院时间预测模型研究[J]. 电子科技大学学报, 2022, 51(4): 500-505. doi: 10.12178/1001-0548.2022004
引用本文: 张平, 吴念悦, 张浩天, 李功利, 刘加林, 李科. 心外科手术患者重症监护室住院时间预测模型研究[J]. 电子科技大学学报, 2022, 51(4): 500-505. doi: 10.12178/1001-0548.2022004
ZHANG Ping, WU Nianyue, ZHANG Haotian, LI Gongli, LIU Jialin, LI Ke. Prediction Model of Intensive Care Unit Length of Stay for Patients with Cardiac Surgery[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(4): 500-505. doi: 10.12178/1001-0548.2022004
Citation: ZHANG Ping, WU Nianyue, ZHANG Haotian, LI Gongli, LIU Jialin, LI Ke. Prediction Model of Intensive Care Unit Length of Stay for Patients with Cardiac Surgery[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(4): 500-505. doi: 10.12178/1001-0548.2022004

心外科手术患者重症监护室住院时间预测模型研究

doi: 10.12178/1001-0548.2022004
基金项目: 四川省科技支撑计划(2020YSF0546, 21ZDYF3601, 21ZDYF2028)
详细信息
    作者简介:

    张平(1986 − ),男,博士生,主要从事医学信息学方面的研究

    通讯作者: 李科, E-mail:colinlike@163.com
  • 中图分类号: TP391.4

Prediction Model of Intensive Care Unit Length of Stay for Patients with Cardiac Surgery

  • 摘要: 心外科患者重症监护室ICU住院时间的影响因素分析和预测有利于住院患者的早期干预和成本控制,对心脏外科患者的治疗和护理具有重要意义。本文使用重症监护数据库MIMIC-IV作为实验数据集,纳入7567名患者数据,采用最小绝对收缩选择算子Lasso从126个影响因子中筛选出41个重要预测因子。基于梯度增强决策树GBDT算法构建了心外科重症监护室住院时间预测模型。实验结果显示,训练全部预测因子的GBDT模型平均准确率为0.688,高于传统逻辑回归LR算法平均准确率0.603,基于筛选出的重要预测因子的GBDT算法与基于全体因子的GBDT算法在最终平均准确率上效果相同,说明该方法可优化数据采集,准确预测住院时间,为临床决策支持系统提供算法支撑。
  • 图  1  模型构建流程图

    图  2  Lasso回归筛选的变量权重图

    图  3  模型准确度箱线图

    图  4  本文GBDT模型预测值与真实值

    表  1  重要预测因子表

    变量名称变量名称
    实验室检测变量
    碱过剩
    二氧化碳总量
    氯化物
    游离钙
    乳酸盐
    酸碱度
    碳酸氢盐
    血小板计数
    碳酸氢根
    钾离子
    肌酐
    钠离子
    白细胞
    红细胞比容
    血红蛋白
    血氧仪测定氧饱和度
    分钟通气量低限报警
    分钟通气量高限报警
    常规检测变量
    收缩压
    舒张压
    体温
    心率
    动脉血二氧化碳分压
    动脉血氧分压
    GCS—睁眼反应
    GCS—语言反应
    GCS—运动反应
    其他变量
    年龄
    心电图
    心脏导管
    心脏骤停
    肺导管
    通气
    慢性疾病
    手术操作计数
    诊断计数
    入院类型
    重症监护室类别
    注:GCS为格拉斯哥昏迷评分
    下载: 导出CSV

    表  3  GBDT预测值与真实值混淆矩阵

    预测住院
    时间/天
    真实住院时间/天
    <3≥3且<7≥7且<14≥14
    <3911246263
    ≥3且<7721354012
    ≥7且<142691
    ≥14610629
    下载: 导出CSV
  • [1] HARISH, RAMAKRISHNA. The high-cardiovascular risk patient for non-cardiac surgery: Guidelines for the perioperative clinician[C]//A New Era in Cardiology Research and Therapy-BIT’s 8th Annual International Congress of Cardiology (ICC-2022). Barcelona: Conference Abstract Book, 2016: 194-195.
    [2] 曾爽, 林雷, 陈春. 右美托咪定在心脏手术围术期应用的研究进展[J]. 医学综述, 2018, 24(6): 1217-1223.

    ZENG S, LIN L, CHEN C. Research progress of the perioperative application of dexmedetomidine in cardiac surgery[J]. Medical Recapitulate, 2018, 24(6): 1217-1223.
    [3] ELY E W, GAUTAM S, MARGOLIN R, et al. The impact of delirium in the intensive care unit on hospital length of stay[J]. Intensive Care Med, 2001, 27: 1892-1900. doi:  10.1007/s00134-001-1132-2
    [4] VINCENT J L, SINGER M. Critical care: Advances and future perspectives[J]. Lancet, 2010, 376(9749): 1354-1361. doi:  10.1016/S0140-6736(10)60575-2
    [5] APPELROS P. Prediction of length of stay for stroke patients[J]. Acta Neurologica Scandinavica, 2007, 9: 15-19.
    [6] FILIPE P, MANUEL F S, lVARO S, et al. Adoption of pervasive intelligent information systems in intensive medicine[J]. Procedia Technology, 2013, 9(4): 1022-1032.
    [7] LEO A C, ROGER R M, DAVID J S, et al. "Big data" in the intensive care unit. Closing the data loop[J]. American Journal of Respiratory and Critical Care Medicine, 2013, 187(11): 1157-1160. doi:  10.1164/rccm.201212-2311ED
    [8] SYED W A S, YU J J, MOON H J, et al. A machine learning-based model for 1-year mortality prediction in patients admitted to an intensive care unit with a diagnosis of sepsis[J]. Medicina Intensiva, 2020, 44(3): 160-170. doi:  10.1016/j.medin.2018.07.016
    [9] BUCHMAN T G, KUBOS K L, SEIDLER A J, et al. A comparison of statistical and connectionist models for the prediction of chronicity in a surgical intensive care unit[J]. Critical Care Medicine, 1994, 22(5): 750-751. doi:  10.1097/00003246-199405000-00008
    [10] 林秋劲. 重症感染患者ICU治疗时间的影响因素分析[J]. 实用临床医学, 2017, 18(4): 24-25, 37.

    LIN Q J. Factors influencing ICU treatment time in patients with severe infection[J]. Practical Clinical Medicine, 2017, 18(4): 24-25, 37.
    [11] 王磊, 旦叶瑶. 影响重症感染患者ICU治疗时间的危险因素[J]. 安徽医专学报, 2021, 20(5): 40-41, 44.

    WANG L, DAN Y Y. Risk factors that affect the duration of ICU treatment in patients with severe infection[J]. Journal of Anhui Medical College, 2021, 20(5): 40-41, 44.
    [12] LEVIN S R, HARLEY E T, FACKLER J C, et al. Real-time forecasting of pediatric intensive care unit length of stay using computerized provider orders[J]. Critical Care Medicine, 2012, 40(11): 3058-3059. doi:  10.1097/CCM.0b013e31825bc399
    [13] FRIEDMAN J H. Greedy function approximation: A gradient boosting machine[J]. The Annals of Statistics, 2001, 29(5): 1189-1232. doi:  10.1214/aos/1013203450
    [14] ROBERT T. Regression shrinkage and selection via the lasso[J]. Journal of the Royal Statistical Society Series B (Methodological), 1996, 58(1): 267-288. doi:  10.1111/j.2517-6161.1996.tb02080.x
    [15] MUTHUKRISHNAN R, ROHINI R. LASSO: A feature selection technique in predictive modeling for machine learning[C]//2016 IEEE International Conference on Advances in Computer Applications (ICACA). Coimbatore: IEEE, 2016: 18-20.
    [16] JONAON A, BULAGRELLI L, POLLARD T, et al. "MIMIC-IV" (version 1.0)[EB/OL]. [2021-3-21]. http://physionet.org/content/mimiciv/1.0/.
    [17] LIN K, HU Y H, KONG G L. Predicting in-hospital mortality of patients with acute kidney injury in the ICU using random forest model[J]. International Journal of Medical Informatics, 2019, 125: 55-61. doi:  10.1016/j.ijmedinf.2019.02.002
    [18] QI X L, JIANG Z C, YU Q, et al. Machine learning-based CT radiomics model for predicting hospital stay in patients with pneumonia associated with SARS-CoV-2 infection: A multicenter study[EB/OL]. [2020-03-03]. https://www.medrxiv.org/content/10.1101/2020.02.29.20029603v1.
    [19] JOSHUA P P, HAHN S L, JONATHAN J P, et al. Comparing machine learning algorithms for predicting acute kidney injury[J]. American Surgeon, 2019, 85(7): 725-729. doi:  10.1177/000313481908500731
    [20] FRANCIS P W, WEI Y, CARLOS A M, et al. Dialysis versus nondialysis in patients with AKI: A propensity-matched cohort study[J]. Biochemical Techniques, 2014, 9(4): 673-681.
    [21] 张桂凤. 基于Adaboost的脑肿瘤患者存活周期分析[J]. 电子科技大学学报, 2020, 49(3): 467-472, 480.

    ZHANG G F. Life cycle analysis for brain tumor patients based on adaboost[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(3): 467-472, 480.
  • [1] 刘颖, 袁莉, 祖铄迪, 范有腾, 谢宁, 杨阳.  基于多模态生理数据的情感识别综述 . 电子科技大学学报, 2024, 53(5): 720-731. doi: 10.12178/1001-0548.2024176
    [2] 谢丽霞, 张浩, 杨宏宇, 胡泽, 成翔, 张良.  网络钓鱼检测研究综述 . 电子科技大学学报, 2024, 53(6): 1-18. doi: 10.12178/1001-0548.2023273
    [3] 李文振, 周雨薇, 刘文雯, 黄健.  治疗性抗体人源度评价与人源化的计算方法研究进展 . 电子科技大学学报, 2024, 53(4): 629-634. doi: 10.12178/1001-0548.2023216
    [4] 丁璟韬, 徐丰力, 孙浩, 严钢, 胡延庆, 李勇, 周涛.  人工智能驱动的复杂系统研究前沿 . 电子科技大学学报, 2024, 53(3): 455-461. doi: 10.12178/1001-0548.2023257
    [5] 张鹏, 秦瑞青, 刘润东, 兰月新, 韦昱妃.  恶意社交机器人检测方法综述 . 电子科技大学学报, 2024, 53(6): 1-11. doi: 10.12178/1001-0548.2023229
    [6] 李西, 姜孟.  机器学习在帕金森病诊断中的应用研究 . 电子科技大学学报, 2024, 53(2): 315-320. doi: 10.12178/1001-0548.2023180
    [7] 胡兆龙, 胡俊建, 彭浩, 韩建民, 朱响斌, 丁智国.  基于深度随机森林算法的短期用户负荷预测—以金华地区为例 . 电子科技大学学报, 2023, 52(3): 430-437. doi: 10.12178/1001-0548.2022172
    [8] 周丰丰, 牛甲昱.  细胞穿膜肽识别问题的多特征融合卷积网络预测算法 . 电子科技大学学报, 2022, 51(4): 494-499. doi: 10.12178/1001-0548.2021391
    [9] 冯小兵, 曾宇怀, 吴泽鹏, 杭文, 魏书精, 汤龙坤, 胡海波.  基于卫星多光谱的广东亚热带森林FMC遥感反演 . 电子科技大学学报, 2022, 51(3): 432-437. doi: 10.12178/1001-0548.2021361
    [10] 刘明友, 刘红美, 张招方, 朱映雪, 黄健.  抗微生物肽机器学习预测算法综述 . 电子科技大学学报, 2022, 51(6): 830-840. doi: 10.12178/1001-0548.2022188
    [11] 苏伟, 孙自杰, 岳鹏, 林昊.  利用计算生物学方法识别原核启动子的研究进展 . 电子科技大学学报, 2021, 50(5): 667-675. doi: 10.12178/1001-0548.2021201
    [12] AnthonyMackitz DZISOO, 任丽萍, 谢诗扬, 周雨薇, 黄健.  治疗性抗体可开发性评估研究进展 . 电子科技大学学报, 2021, 50(3): 476-480. doi: 10.12178/1001-0548.2021060
    [13] 张仕斌, 黄曦, 昌燕, 闫丽丽, 程稳.  大数据环境下量子机器学习的研究进展及发展趋势 . 电子科技大学学报, 2021, 50(6): 802-819. doi: 10.12178/1001-0548.2021332
    [14] 杨旺功, 淮永建, 张福泉.  基于Gabor及深度神经网络的葡萄种子分类 . 电子科技大学学报, 2020, 49(1): 131-138. doi: 10.12178/1001-0548.2019164
    [15] 吴佳, 陈森朋, 陈修云, 周瑞.  基于强化学习的模型选择和超参数优化 . 电子科技大学学报, 2020, 49(2): 255-261. doi: 10.12178/1001-0548.2018279
    [16] 张亮亮, 唐有, 张翌维, 王新安.  针对密码芯片数据搬移能量曲线的机器学习攻击 . 电子科技大学学报, 2019, 48(3): 415-419. doi: 10.3969/j.issn.1001-0548.2019.03.017
    [17] 陈启明, 黄瑞.  下肢外骨骼机器人意图识别算法研究 . 电子科技大学学报, 2018, 47(3): 330-336. doi: 10.3969/j.issn.1001-0548.2018.03.002
    [18] 何海江.  基于排序学习算法的软件错误定位模型研究 . 电子科技大学学报, 2017, 46(3): 577-582. doi: 10.3969/j.issn.1001-0548.2017.03.016
    [19] 谭颖, 张涛, 谭睿, 沈小涛, 校景中.  基于小波变换与SVM的ADHD病人分类 . 电子科技大学学报, 2015, 44(5): 789-794. doi: 10.3969/j.issn.1001-0548.2015.05.025
    [20] 柏骏, 夏靖波, 鹿传国, 李明辉, 任高明.  基于RVM的网络流量分类研究 . 电子科技大学学报, 2014, 43(2): 241-246. doi: 10.3969/j.issn.1001-0548.2014.02.016
  • 加载中
图(4) / 表(2)
计量
  • 文章访问数:  5494
  • HTML全文浏览量:  1570
  • PDF下载量:  66
  • 被引次数: 0
出版历程
  • 收稿日期:  2021-12-28
  • 修回日期:  2022-02-20
  • 网络出版日期:  2023-02-20
  • 刊出日期:  2022-07-09

心外科手术患者重症监护室住院时间预测模型研究

doi: 10.12178/1001-0548.2022004
    基金项目:  四川省科技支撑计划(2020YSF0546, 21ZDYF3601, 21ZDYF2028)
    作者简介:

    张平(1986 − ),男,博士生,主要从事医学信息学方面的研究

    通讯作者: 李科, E-mail:colinlike@163.com
  • 中图分类号: TP391.4

摘要: 心外科患者重症监护室ICU住院时间的影响因素分析和预测有利于住院患者的早期干预和成本控制,对心脏外科患者的治疗和护理具有重要意义。本文使用重症监护数据库MIMIC-IV作为实验数据集,纳入7567名患者数据,采用最小绝对收缩选择算子Lasso从126个影响因子中筛选出41个重要预测因子。基于梯度增强决策树GBDT算法构建了心外科重症监护室住院时间预测模型。实验结果显示,训练全部预测因子的GBDT模型平均准确率为0.688,高于传统逻辑回归LR算法平均准确率0.603,基于筛选出的重要预测因子的GBDT算法与基于全体因子的GBDT算法在最终平均准确率上效果相同,说明该方法可优化数据采集,准确预测住院时间,为临床决策支持系统提供算法支撑。

English Abstract

张平, 吴念悦, 张浩天, 李功利, 刘加林, 李科. 心外科手术患者重症监护室住院时间预测模型研究[J]. 电子科技大学学报, 2022, 51(4): 500-505. doi: 10.12178/1001-0548.2022004
引用本文: 张平, 吴念悦, 张浩天, 李功利, 刘加林, 李科. 心外科手术患者重症监护室住院时间预测模型研究[J]. 电子科技大学学报, 2022, 51(4): 500-505. doi: 10.12178/1001-0548.2022004
ZHANG Ping, WU Nianyue, ZHANG Haotian, LI Gongli, LIU Jialin, LI Ke. Prediction Model of Intensive Care Unit Length of Stay for Patients with Cardiac Surgery[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(4): 500-505. doi: 10.12178/1001-0548.2022004
Citation: ZHANG Ping, WU Nianyue, ZHANG Haotian, LI Gongli, LIU Jialin, LI Ke. Prediction Model of Intensive Care Unit Length of Stay for Patients with Cardiac Surgery[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(4): 500-505. doi: 10.12178/1001-0548.2022004
  • 心脏外科手术因其手术器官特殊、手术环节复杂等,其围术期的病死率较高[1-2],因此手术后重症监护室(intensive care unit, ICU)需要及时准确地评估病情及住院时间。

    临床研究发现,患者在ICU的住院时间会从根本上影响患者的预后效果[3]。住院时间是一个复杂的衡量指标,受很多因素的影响,包括患者人口统计数据、治疗复杂性、并发症和出院计划等,量化和优化患者在ICU中的治疗时间对医疗成本的控制和临床服务质量的提高具有重要作用[4-5]。较长的ICU治疗时间意味着更多的重症监护资源和高昂的医疗费用[6],ICU治疗时间延长也可能影响ICU护理质量,增加医疗成本,且可能使病情恶化,并可能减少对最需要患者的照护[7]

    因此,合理预测心脏手术患者的治疗时间,对ICU患者手术治疗效果的评估有重要意义。但在临床操作时,手术患者住院时间的预测通常依赖医护人员的经验,本文探索基于机器学习方法预测重症患者心脏手术后ICU的治疗时间。

    在ICU患者临床数据分析中,有研究使用机器学习预测患者的死亡率或疾病发生率,文献[8]采用机器学习方法预测脓毒症患者死亡率,其预测结果比简化急性生理学评分等传统评分量表更为准确。文献[9]以7天为界,对外科重症监护室中的患者进行分类和预测,通过神经网络方法预测随着时间的推移而降低的慢性变化。

    在重症感染患者ICU治疗时间的危险因素研究方面,文献[10]分析影响重症感染患者ICU治疗时间的危险因素,发现血清乳酸水平是重要的危险因素之一。文献[11]采用统计方法对ICU治疗时间进行影响因素分析,发现慢性健康状况系统Ⅱ评分、血乳酸浓度、平均动脉压、血清钠浓度是治疗时间的影响因素。文献[12]建立实时预测儿科重症监护室住院时间的模型,并将该模型集成到计算机决策支持系统中,以改善患者流程管理。该模型将预测的住院时间与实际住院时间进行实时比较,研究变量包括年龄、入院状态、是否再次入院,时间变量包括目前住院时间、医疗状况、通气情况、实验室指标、饮食情况、活动情况和异物情况等。

    本文针对临床上及时分析重症患者ICU治疗时间影响因素以及准确预测其所需住院时间,研究基于最小绝对收缩选择算子(least absolute shrinkage and selection operator, Lasso)的心脏手术患者重症监护室住院时间的重要预测因子优化方法,构建基于梯度提升决策树算法的心外科手术患者ICU住院时间预测模型。实验结果可为辅助临床预测、临床决策支持系统提供算法支撑。

    • 梯度提升决策树算法[13](gradient boosting decision tree, GBDT)是一种迭代的决策树算法,通过多轮迭代生成弱分类器,每个分类器都在前一轮分类器残差的基础上进行训练。对弱分类器的要求通常足够简单,且具有低方差和高偏差。训练过程是为了减少偏差以提高最终分类器的准确率,每次训练的目的都是为了减少最后的残差。为了连续地减小残余误差,需要在残差减小的梯度方向上训练新的模型。每个新模型都是在梯度方向上减小前一个模型的残差。

      每一棵决策树$ {T}_{m} $按照分枝增益最大的方式进行增长,最终的回归树$ {T}_{m} $的训练目标则是真实值与$ ({T}_{1}+{T}_{2}+\cdots +{T}_{m-1}) $结果的残差最小,整体而言GBDT是一种基于Boosting思想的加性模型。

      该算法的主要步骤如下。

      1) 初始化弱学习器:

      $$ {F}_{0}\left(x\right)=\mathrm{arg}\;{\rm{min}}\sum\limits _{i=1}^{N}L({y}_{i},\gamma ) $$ (1)

      式中,N为样本数;L为损失函数。

      2) 对于样本$ i=1,\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }2\cdots, N $,计算负梯度:

      $$ {{{\bar y}}_{{i}}} = - \dfrac{{\partial {{L}}\left[ {{{{y}}_{{i}}},{{F}}\left( {{{{x}}_i}} \right)} \right]}}{{\partial {{F}}\left( {{{{x}}_{{i}}}} \right)}} $$ (2)

      3) 计算第m棵树的参数:

      $$ {\omega }_{m}=\mathrm{arg}\;{\rm{min}}\sum\limits _{i=1}^{N}{[{\bar {y}}_{i}-h({x}_{i}:\omega \left)\right]}^{2} $$ (3)

      式中,h为决策树函数。

      4) 最优化第m棵树的权重:

      $$ {\gamma }_{m}=\mathrm{arg}\;{\rm{min}}\sum\limits _{i=1}^{N}L[{y}_{i},{F}_{m-1}\left({x}_{i}\right)+\gamma h({x}_{i}:{\omega }_{m}\left)\right] $$ (4)

      5) 最终得到强学习器表达式:

      $$ {F}_{m}\left(x\right)={F}_{m-1}\left(x\right)+{\gamma }_{m}h(x:{\omega }_{m}) $$ (5)

      本文数据集里存在较多的连续型数据与离散型数据,同时,需要对于医护记录出错导致的异常值有很强鲁棒性的算法。GBDT算法作为针对真实分布拟合最好的算法之一,较适合ICU这种复杂的医疗环境的数据分析。

    • Lasso[14]是一种正规化线性回归方法,在特征选择方面有广泛应用[15]。Lasso回归的特点是在拟合广义线性模型时进行变量筛选和复杂度调整。因此,无论目标因变量是连续的、二元的还是多元离散的,都可以使用Lasso回归进行建模和预测。通常当变量的数量大于数据点的数量时,或者当离散变量具有太多唯一值时,可能产生过拟合。因此,本文使用Lasso回归来防止过度拟合。同时,Lasso回归能忽略不重要的特征,构建一个稀疏且更易解释的模型。

      Lasso回归的表达式为:

      $$ {{\hat \beta }_{{\rm{Lasso}}}} = {\rm{arg}}\;{\rm{min}} \left\{ {\sum\limits_{i = 1}^n {{{\left( {{y_i} - \sum\limits_{j = 1}^P {{\beta _j}{x_{ij}}} } \right)}^2}} + \lambda \sum\limits_{j = 1}^P {\left| {{\beta _j}} \right|} } \right\} $$ (6)

      算法的目的是求最小化的目标函数$ {\hat{\beta }}_{{\rm{Lasso}}} $$\displaystyle\sum\limits_{i = 1}^n {{{\left( {{y_i} - \displaystyle\sum\limits_{j = 1}^P {{\beta _j}{x_{ij}}} } \right)}^2}}$表示模型拟合程度,$\lambda \displaystyle\sum\limits_{j = 1}^P {\left| {{\beta _j}} \right|}$作为惩罚项,主要调节参数为$ \lambda $。参数$ \lambda $越大,表示惩罚力度越大,则保留的特征变少;参数$ \lambda $越小,表示惩罚力度越小,则保留的特征越多,特征筛选的数量通过对$ \lambda $的控制实现。

      本文通过调节参数$ \lambda $,从所有预测影响因子中筛选出重要的因子,作为分析影响患者住院时间的主要因素。本文算法可忽略不重要的部分特征,防止过度拟合,最终构建了一个稀疏且更易解释的住院时间预测模型。

    • 本文使用的是2021年3月16日发布的MIMIC-IV 1.0。 MIMIC-IV数据库包含2008年−2019年贝斯以色列女执事医疗中心ICU的4万多名患者的信息(https://physionet.org/content/mimiciv/1.0/)[16],该数据库是一个大型、开放的数据库,包括实验室计量结果、药品、保险、护理记录、生命体征计量等多种数据信息。也是目前重症领域中数据完整性较好的数据库,拥有近年来心脏手术患者的治疗流程、预后情况等记录。本文模型的预测结果不会因为医疗机构治疗水平的提升以及心脏外科的发展而产生偏差,时效性较好。

    • 本文研究流程如图1所示,首先在MIMIC-IV数据库中筛选患者,从10938名患者中选出7567名患者,然后使用Lasso回归从126个预测因子中筛选出41个重要的预测因子,结合筛选的预测因子和全部预测因子分别使用传统逻辑回归(logistic regression, LR)算法和GBDT算法进行训练。训练模型前,采用网格搜索优化模型参数。

      图  1  模型构建流程图

      本文实验使用计算机CPU处理器为Intel Core i5-8500 3.00 GHz,内存为8 GB。算法使用Python语言,集成开发环境使用jupyter notebook,且使用了第三方工具包scikit-learn。

    • 本文通过国际疾病分类手术码ICD-9-CM-3纳入心脏手术患者数据,最初纳入了10938名接受心脏手术的患者。然后,将缺失值超过15%的患者排除在分析之外[17],18岁以下的患者和死亡患者也被排除在外,最终共有7567名患者被纳入,纳入患者数据的平均心率为81.69,平均格拉斯哥昏迷评分为8.46,在ICU的平均住院时间为3.12天。

    • 本文提取了患者在ICU住院前12 h内的数据。为了尽可能纳入所有影响住院时间的因子,提取了心率、收缩压、体温、通气状态、格拉斯哥昏迷评分等38个特征。对于重复测量的变量如心率、白细胞计数等,根据其生理意义在12 h内统计最大值、最小值和平均值。对于唯一的变量,如年龄,直接使用原始值。对于非数字变量,如入院类型和种族,使用one-hot编码处理。最终,共有126个预测因子作为模型的输入。

      目前,对于住院时间的研究通过单变量分析住院时间的影响因素,或者采用简单二分类对患者住院时间进行预测,存在明显不足[7,11,18]。为了对患者住院时间进行更细致地划分,本文根据专业心外科团队的建议,将结果指标中患者的住院时间分为4类:少于3天、大于等于3天且小于7天、大于等于7天且小于14天、大于等于14天,建立四分类预测模型。这种划分相比二分类模型更有助于明确衡量患者的住院时间,有利于准确地评估患者病情以及预后效果。

    • 本文使用Lasso回归筛选重要的预测因子,参数$ \lambda $为0.05。经过Lasso算法筛选,从126个预测因子中得到对ICU住院时间影响较大的41个预测因子,具体如表1所示,预测因子中部分权重较大的预测因子权重值如图2所示。

      表 1  重要预测因子表

      变量名称变量名称
      实验室检测变量
      碱过剩
      二氧化碳总量
      氯化物
      游离钙
      乳酸盐
      酸碱度
      碳酸氢盐
      血小板计数
      碳酸氢根
      钾离子
      肌酐
      钠离子
      白细胞
      红细胞比容
      血红蛋白
      血氧仪测定氧饱和度
      分钟通气量低限报警
      分钟通气量高限报警
      常规检测变量
      收缩压
      舒张压
      体温
      心率
      动脉血二氧化碳分压
      动脉血氧分压
      GCS—睁眼反应
      GCS—语言反应
      GCS—运动反应
      其他变量
      年龄
      心电图
      心脏导管
      心脏骤停
      肺导管
      通气
      慢性疾病
      手术操作计数
      诊断计数
      入院类型
      重症监护室类别
      注:GCS为格拉斯哥昏迷评分

      图  2  Lasso回归筛选的变量权重图

      图2可见,预测因子中诊断个数和手术个数两个变量对ICU住院时间有显著影响,权重均在0.8以上,显然患者被诊断出患有的疾病越多,需要进行的手术越多,住院时间也会越长,这是一个符合临床预期的结果。预测因子乳酸盐浓度目前在ICU中被用作诊断工具和预后指标,因为乳酸盐浓度越高,死亡的风险越大,这一结果与文献[8,19]一致,这在一定程度上提示医护人员在护理患者时应注意的细节。通过Lasso回归分析,血清肌酐浓度(权重为0.192)是第七大最重要的预测指标,因为最小肌酐浓度是预测急性肾损伤最重要的变量,这一结果与文献[20]一致。此外,心率和血压、格拉斯哥昏迷评分(GCS)、入院类型和ICU病房类型也对心脏外科患者在ICU的住院时间有一定影响。

      基于Lasso算法的预测因子筛选结果符合其临床意义,并与相关文献结果一致,说明通过机器学习方法进行ICU住院时间影响因子筛选是可行的,有助于临床决策支持系统的开发。

    • 训练模型前,通过网格搜索优化模型参数,穷举搜索并将参数通过交叉验证以优化得到最优模型。网格搜索分为粗搜索和细搜索两个步骤[20],通过粗搜索确定参数的近似范围,然后进一步通过细搜索确定在近似范围内的准确参数值。

      通过网格搜索,确定本文中GBDT分类模型的重要参数:每个弱学习器的权重缩减系数为0.1,弱学习器的最大迭代次数为40,决策树最大深度为10,叶子节点最少样本数为90,内部节点再划分所需最小样本数为300,最大的叶子节点个数为6,一个叶子节点所需的总权重的最小加权分数为0。

    • 在本文实验中,每次训练随机抽取全体80%的数据作为训练集,20%的数据作为测试集,训练1000次后,最终评估模型效果。

      图3显示,训练全部126个预测因子的逻辑回归算法平均准确度为0.603(95%置信区间 CI:[0.602, 0.604]),训练全部预测因子的GBDT算法平均准确度为0.688(95%置信区间 CI:[0.687, 0.689]),训练筛选出的41个预测因子的GBDT算法平均准确度为0.687(95%置信区间 CI:[0.687, 0.688])。

      可以看出,训练所有预测因子的GBDT模型与传统LR模型相比预测结果更加准确。GBDT作为一种Boosting算法,由多棵决策树组成,最终结果是所有决策树的总和,这使其在区分不同病理特征和关联的病理特征组合方面具有天然优势[21]。本文中,这一优势体现在重新衡量患者的预测因子时,可以处理非线性数据,对异常值具有很强的鲁棒性,这使得它适合ICU复杂的医疗环境。

      图  3  模型准确度箱线图

      对比训练重要预测因子的GBDT模型与训练所有预测因子的GBDT模型,结果的平均准确度基本相同,说明在减少了大量预测因子的情况下,模型仍能取得较好的预测效果,这样通过Lasso回归筛选并减少住院时间的预测因子,将更有助于减少临床数据收集的工作量,并保证临床决策支持系统的快速运行。

    • 本文随机抽取1514名(总数据的20%)患者作为测试集,其中65%的患者ICU住院时间不超过3天。针对训练重要预测因子的GBDT模型预测值与实际值的差异进行分析,表3为二者的混淆矩阵,图4反映了4种类别上二者的差异。

      表 3  GBDT预测值与真实值混淆矩阵

      预测住院
      时间/天
      真实住院时间/天
      <3≥3且<7≥7且<14≥14
      <3911246263
      ≥3且<7721354012
      ≥7且<142691
      ≥14610629

      图  4  本文GBDT模型预测值与真实值

      结果显示,模型对住院时间小于3天的患者预测效果最好,真实值中92%(911名)的患者被正确预测。对于住院时间在3~7天的患者,仅34%(135名)被正确分类,大多数患者被归类为住院时间小于3天,这一定程度上是由于数据分布所导致的。住院时间小于3天的患者占所有患者的65%(991名),因此对某一名患者的预测结果会更偏向于住院时间小于3天。而7~14天的患者的预测正确率最低,仅为11%(9名),这主要是因为训练样本过少所导致的。对于最后一类住院时间大于等于14天的患者,算法取得了较好的预测效果,原因在于ICU长期住院患者的生理等各类指标与短期住院患者有明显的不同,因此更容易被正确分类。

      总体对比可以看出,本文GBDT算法在预测心外科患者ICU住院时间时取得了较好的效果,能够准确预测心外科ICU患者的住院时间,对临床决策有一定的指导作用。

    • 本文使用Lasso回归筛选出重要的预测因子,其中诊断个数、手术个数、乳酸盐浓度和血氧饱和度等因子对住院时间有显著影响,结果符合临床意义和临床研究结果,增加了机器学习模型的可解释性,有利于进一步临床决策支持系统的开发。

      本文提出的基于GBDT算法的心外科手术患者重症监护室住院时间预测模型,取得了较好的预测效果,有利于长时间住院的ICU患者的早期干预,有利于智能方法合理配置医疗资源,提高治疗效率。

参考文献 (21)

目录

    /

    返回文章
    返回