-
自2020年1月以来,新型冠状病毒疫情迅速蔓延,各地确诊病例增加。疫情受到各地政府高度关注,相继启动重大突发卫生事件I级响应并采取不同程度的隔离措施。2020年1月30日,国际卫生组织将此次疫情列为“国际公众卫生紧急事件”。在加强医疗援助及实施隔离措施的同时,全球科研人员针对新冠病毒从流行病学[1]、病理学[2]和药理学[3]3个领域进行了分析,为抗击疫情提供了有力的学术支持。其中,从流行病学角度分析疫情的发展规律并预测疫情发展趋势对制定和实施合理的干预防控措施具有重要意义。
为评估疫情发展,现有的方法可分为统计学方法与动力学方法两种。统计学模型在信息不全的情况下通过某一小样本的情况对总体进行预测。文献[4]根据武汉国际机场每日人流量、该样本下的确诊人数以及机场往日的流量数据对武汉潜在感染人数进行估计。然而,由于小样本与总体样本具有传播特性差异,该方法的估计结果可能存在较大的偏差。同时,统计学模型无法反映疫情传播的变化趋势。考虑人口迁徙因素的影响,文献[5]根据武汉迁徙数据,分析了全国50个城市感染新型冠状病毒的确诊比率,并利用Bootstrap方法对确诊人数进行了稳健性估计。实验分析证明了病毒的二代传播在不同区域存在一定的差异性,社会活动对疫情发展存在一定的影响。
与统计学模型不同,动力学模型[6]基于病毒寄生宿主后各个状态间的因果关系,利用对该病毒已知的信息与各个状态下人群的历史数据构建用于描述传播机理的微分方程,从而得出对有效再生数、确诊人数等指标的预测评估值。根据对疫情发展中不同群体的划分情况不同,用于描述传染病传播的经典数学模型有SIR模型和SEIR模型两种形式。
SIR模型[7]假设易感人群(susceptible)、感染人群(infectious)和康复人群(recovered)3部分人群在病毒发展规律下以一定概率向其他状态转移形成“易感态−感染态−康复态”的动力学模型,可实现对病毒的传染趋势在一定精度内的评估和预测。文献[8]利用机器学习方法估计SIR模型,其估计结果基本与实际数据吻合。
进一步,SEIR模型[9]在SIR模型的基础上考虑到潜伏期导致感染过程存在迟滞性。因此,SEIR模型对动力学系统进行细化,串联了潜伏期人群(exposed)。基于该模型,文献[10]对病毒基本再生数进行了初步预测。预测过程证明在SEIR模型下基本再生数的时间敏感性。此外,文献[11]基于该疾病的临床特征、传染性特征以及政府有关的干预措施在SEIR模型中增加无症状感染人群(pre-symptomatic)和住院人群(hospitalized)两种状态,达到细化传播过程描述的效果,借助蒙特卡洛模拟,认为在当时控制下的基本再生数高达6.47。文献[12]就潜伏期长度对疫情的影响做了深入分析,得到在不同的潜伏期假设下,预测趋势的增长速度,拐点和峰值都存在差别,潜伏期的不同会影响疫情趋势变化。而从实际的效果来看,潜伏期受到人类宿主生理系统的影响存在个体差异,潜伏期存在的影响呈现出一定的不确定性。
尽管SIR模型与SEIR模型对基本再生数和疫情早期趋势有较好的估计,然而基于动力学的预测模型在实际应用中仍存在局限性[13]。首先,仓室模型无法对开放式流动环境下的病毒传播做出准确估计;第二,该类模型对相关参数的评估缺乏外界环境应力影响的引入;第三,对于疾病传播能力及治愈概率的常数假设与实际状况不符。因此,该类模型无法对疫情趋势做长期准确的分析。
考虑到人为及环境影响因素,一些学者基于环境容纳量的概念,引入针对疾病传播的Logistic增长模型[14]和指数增长模型[15]。该类模型反映了医疗和防控对于疫情发展存在一定时滞性影响[16],并且结合此类因素给出更符合实际的估计。
综上,本文结合动力学模型对传播机理描述的准确性和Logistic增长模型对外界因素估计的有效性,将基于机理描述的微分方程与基于数据驱动的极限学习机[17]融合,构建用于实时预测的极限IR模型。在该模型中,对动力学方程进行改进,突破仓室模型下仅考虑密闭环境的局限性。同时将传播最终状态进一步分化为治愈态和死亡态,并预测从感染态到这两种状态概率的时变规律,用于进行更加精确的预测。最后,借助极限学习机,生成对确诊人数动态变化的预测模型,用于疫情趋势的实时预测和分析。实验证明,极限IR算法可实现准确的实时预测。
HTML
-
利用本文提出的极限IR预测模型,采用自2020年1月23以来国家卫生健康委员会公布的全国累积确诊人数、累积死亡人数和累积治愈人数对模型的实际预测效果进行验证。同时,通过与基于蒙特卡洛方法的SEIR模型(SEIR-MC)和基于蒙特卡洛马尔科夫方法的SIR模型(SIR-MCMC)的预测结果进行比较,验证算法的实时预测效果。
-
利用极限学习机,对治愈人群的变化趋势和死亡人群的变化趋势的预测结果如图7所示。由图7a和图7c可以看出治愈率总体随时间提升,而死亡率随时间下降,受到实际的临床经验进展影响变化趋势发生波动。通过预测曲线,极限IR模型能够有效地对两组概率的变化趋势进行有效地预测,产生的预测时间曲线与实际的概率变化大致相同。因此,图7b和图7d中模型提供了治愈人数和死亡人数准确的估计,预测趋势与实际的变化趋势基本一致。
-
为说明极限IR预测模型对现有确诊人数的预测效果,图8展示了通过极限IR模型进行的单步和多步预测结果。
尽管在前10天时预测结果发生了较大波动,单步预报值总体上能够很好地描述疫情发展趋势,且在第10天后预测结果基本不受早期疫情传染能力大幅波动的影响。尤其在疫情发展第10天至第20天,模型对现有确诊人数的预测值与实际的确诊人数基本吻合。此外,利用该模型得到的3步预测值与5步预测值也较好地预测了感染人数的变化趋势。
为进一步说明极限IR算法的效果,表1比较了SEIR-MC模型、SIR-MCMC模型以及极限IR模型在2020年2月7日至2月16日间的预测效果。由图1所示,SEIR-MC模型在2020年2月7日至2月9日的预测误差较小,而在2020年2月10日后疾病防控活动对疫情发展影响变强,利用该方法的预测误差逐渐加大。另一方面,采用蒙特卡洛马尔科夫方法在一定程度上可以实现对参数的动态评估,然而伴随2020年2月12日临床诊断结果加入医学诊断中的举措,该方法对于参数的评估产生误差。与SEIR-MC和SIR-MCMC不同,极限IR模型利用神经网络实现动力学模型中时变参数的精确估计,因此从10天数据的总体效果看,该模型能实现精度更高的实时预测,其误差可以控制在10%以内。
日期 确诊人数/人 SEIR-MC模型 SIR-MCMC模型 极限IR模型 预测人数/人 误差/人 预测人数/人 误差/人 预测人数/人 误差/人 2月7日 34 546 34 780 234 31 680 2 866 34 776 230 2月8日 37 198 37 497 299 34 727 2 471 38 350 1 152 2月9日 40 171 39 650 521 37 448 2 723 40 653 482 2月10日 42 638 41 200 1 438 40 496 2 142 43 843 1 205 2月11日 44 742 41 255 3 487 42 761 1 981 46 013 1 271 2月12日 52 526 42 563 9 963 45 663 6 863 47 866 4 659 2月13日 55 748 42 491 13 257 47 205 8 543 53 615 2 132 2月14日 56 873 42 020 14 853 54 608 2 265 59 837 2 964 2月15日 57 416 41 227 16 189 62 948 5 532 59 600 2 184 2月16日 57 934 40 187 17 747 60 341 2 407 59 848 1 914