留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于Web数据挖掘的COVID-19流行病学特征分析

郑文 赵偲 李泽堃 武啸泽 胡涛

郑文, 赵偲, 李泽堃, 武啸泽, 胡涛. 基于Web数据挖掘的COVID-19流行病学特征分析[J]. 电子科技大学学报, 2020, 49(3): 408-414. doi: 10.12178/1001-0548.2020079
引用本文: 郑文, 赵偲, 李泽堃, 武啸泽, 胡涛. 基于Web数据挖掘的COVID-19流行病学特征分析[J]. 电子科技大学学报, 2020, 49(3): 408-414. doi: 10.12178/1001-0548.2020079
ZHENG Wen, ZHAO Cai, LI Ze-kun, WU Xiao-ze, HU Tao. Epidemiological Characteristics of Novel Coronavirus COVID-19 Based on Web Data Mining[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(3): 408-414. doi: 10.12178/1001-0548.2020079
Citation: ZHENG Wen, ZHAO Cai, LI Ze-kun, WU Xiao-ze, HU Tao. Epidemiological Characteristics of Novel Coronavirus COVID-19 Based on Web Data Mining[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(3): 408-414. doi: 10.12178/1001-0548.2020079

基于Web数据挖掘的COVID-19流行病学特征分析

doi: 10.12178/1001-0548.2020079
基金项目: 国家自然科学基金(11702289);冲击与安全工程教育部重点实验室开放基金(cj201902)
详细信息
    作者简介:

    郑文(1985-),男,博士,研究员,主要从事公共安全大数据、数字政府建设等方面的研究. E-mail:zhengwen@tyut.edu.cn

  • 中图分类号: TP391

Epidemiological Characteristics of Novel Coronavirus COVID-19 Based on Web Data Mining

图(7) / 表(3)
计量
  • 文章访问数:  10718
  • HTML全文浏览量:  3215
  • PDF下载量:  217
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-02-24
  • 修回日期:  2020-03-23
  • 网络出版日期:  2020-05-15
  • 刊出日期:  2020-05-01

基于Web数据挖掘的COVID-19流行病学特征分析

doi: 10.12178/1001-0548.2020079
    基金项目:  国家自然科学基金(11702289);冲击与安全工程教育部重点实验室开放基金(cj201902)
    作者简介:

    郑文(1985-),男,博士,研究员,主要从事公共安全大数据、数字政府建设等方面的研究. E-mail:zhengwen@tyut.edu.cn

  • 中图分类号: TP391

摘要: 基于Selenium数据挖掘技术,通过对2020年2月4日−22日新浪微博“肺炎患者求助超话”中690例有效病例的分析,获得了新浪微博中真实求助病例的流行病学特征。研究发现,求助患者97.6%来自于武汉,重点集中在武昌、硚口、汉阳等中心城区,与当地的医疗资源和人口密度成正比。微博求助病例主要分布在2020年2月4日−7日,随着医疗资源紧张程度的缓解,通过微博求助的病例明显减少。求助患者确诊日期主要分布在2020年1月16日−2月6日,与中国疾控中心发布的病例分布情况基本一致。求助患者年龄分布中位数为60岁,明显高于中国疾控中心发布的数据,但与武汉市中心医院的数据基本吻合。该文研究结果说明,针对重大突发性传染病,微博等社交媒体除了在舆论传播上发挥作用,在流行病学分析上也具有重要意义。基于社交媒体的实时性和广泛性,结合数据挖掘和大数据分析等方法,有助于决策层快速掌握一线真实情况。

English Abstract

郑文, 赵偲, 李泽堃, 武啸泽, 胡涛. 基于Web数据挖掘的COVID-19流行病学特征分析[J]. 电子科技大学学报, 2020, 49(3): 408-414. doi: 10.12178/1001-0548.2020079
引用本文: 郑文, 赵偲, 李泽堃, 武啸泽, 胡涛. 基于Web数据挖掘的COVID-19流行病学特征分析[J]. 电子科技大学学报, 2020, 49(3): 408-414. doi: 10.12178/1001-0548.2020079
ZHENG Wen, ZHAO Cai, LI Ze-kun, WU Xiao-ze, HU Tao. Epidemiological Characteristics of Novel Coronavirus COVID-19 Based on Web Data Mining[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(3): 408-414. doi: 10.12178/1001-0548.2020079
Citation: ZHENG Wen, ZHAO Cai, LI Ze-kun, WU Xiao-ze, HU Tao. Epidemiological Characteristics of Novel Coronavirus COVID-19 Based on Web Data Mining[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(3): 408-414. doi: 10.12178/1001-0548.2020079
  • 自2019年12月以来,新型冠状病毒肺炎(COVID-19)感染者迅速增加[1],截至2020年2月20日全国发现感染病例7万余例[2]。目前,已有相关学者和科研机构对新冠肺炎病毒展开研究和分析。我国对新冠肺炎病毒的病原学、流行特征和致病机制等方面已基本掌握[3-8],这不仅为制定疫情防控策略和措施提供科学依据,也对全球社区了解新冠病毒提供了重要的参考。在遗传学、病毒学等领域,研究人员对病毒基因组序列展开研究[9-12],加速了对追溯病毒源头、预防疾病、研究疫苗等方面的工作进展。在疫情预测和评估方面,通过建立SEIR模型,加入不同参数进行仿真分析[13-16],不仅证明了模型分析与疫情发展的真实表现基本吻合,进一步肯定了对COVID-19疫情防控措施的有效性,对接下来做好疫情防控具有较好的指导价值。令人欣喜的是,我国在新冠病毒肺炎药物研发方面取得了重大进展[17-18],多种药物对治疗新型冠状病毒肺炎方面的患者起着积极有效的作用,加速推进了我国战胜疫情的步伐。

    值得注意的是,以上相关研究大多侧重于新型冠状病毒肺炎的传播模型、流行病学特征、病因病理和治疗护理的某一个方面,而且大部分数据来源于国家或者地方卫健委官网,数据来源方式相对单一。最重要的是在疫情初期,政府无法快速获取一线真实有效数据,不利于开展疫情防控工作,也不利于有效措施的实施。而新一代信息技术作为国务院在“十二五”规划中确定的7个战略性新兴产业之一,在传统流行病学研究中的重要意义并未展现。

    另一方面,近年来中国社交媒体的发展引人注目[19],相继出现了微信、微博、抖音等社交软件。社交媒体软件借助互联网的平台涵盖了以人类社交为核心的所有网络服务形式,助力互联网从研究部门、学校、政府、商业应用等平台扩展到每一个人,同时也造成社交数据的爆炸式增长。社交媒体数据之间存在大量信息和知识,而且可以广泛用于各种应用场景,包括商务管理、生产控制、工程设计、市场分析和科学探索等。但是如何有效地提取并利用这些信息成为一个巨大的挑战。为了解决这一问题,定向抓取相关网页资源的网络数据挖掘技术应运而生。网络数据挖掘可以通过程序或者脚本,按照一定的规则,自动地抓取万维网信息,实现对相关网页的数据资源分析。目前数据挖掘技术广泛应用在电力、经济、通信、民生等领域[20]

    本文通过Selenium数据挖掘技术,从社交媒体(新浪微博)上获得有效新型冠状病毒肺炎求助病例信息690例。随后利用该数据集,分别从求助患者的地理空间、求助人数、确诊日期和患病人员年龄4个方面,对新型冠状病毒肺炎的流行病学特征进行分析,最后结合社交媒体的广泛性、实时性特征,对发生重大传染性疾病期间,管理部门的各项政策效果进行了讨论和评估。

    • 本文主要是基于开源的Web应用程序Selenium测试工具,结合Python编写的采集程序,在模拟操作浏览器的情况下,实现社交媒体工具上新型冠状病毒肺炎病例数据的自动采集。

      新型冠状病毒肺炎疫情期间,新浪微博迅速成为民众了解疫情动态和走向的重要平台。平均每天超过2亿网友通过新浪微博关注疫情最新信息,获取疫情防治服务,参与公益募捐。微博上的疫情话题数量不断增长,截至2020年2月22日,累计88万名个人认证用户发布了1 688万条微博,内容涉及内容包括医疗、科普等多个领域。

      针对新型冠状病毒肺炎疫情,新浪微博于2020年2月4日官方发布了“肺炎患者求助超话”,相关政府部门也设置专门的通道与求助者进行核实和对接。截至2020年2月22日,该超级话题收集帖子1 222个,关注粉丝57.5万,阅读量超过29亿。基于社交媒体数据挖掘方法,本文选取新浪微博“肺炎患者求助超话”求助专区上发布的求助信息为对象,研究新型冠状病毒肺炎疫情期间,社交媒体上求助病例的流行病学特征。其中,该求助超话包含的求助人员信息字段如表1所示。

      表 1  求助人员信息字段

      序号字段
      1姓名
      2年龄
      3所在城市
      4所在小区、社区
      5患病时间
      6病情描述
      7联系方式

      截至2020年2月22日,本文通过数据挖掘方法在微博“肺炎患者求助超话”上一共获得有效求助病例数据690例,部分求助人员信息数据如表2所示。鉴于本文研究的重点在于新型冠状病毒肺炎病例的流行病学特征分析,所以求助人员信息主要侧重于“年龄,所在城市,所在小区、社区,患病时间,求助日期”共6个数据段。需要说明的是,微博超话中的患病时间,具体指的是患者的确诊时间,求助患者中绝大部分都给出了详细的确诊证明材料。另外出于保护个人隐私的需要,本文研究的最终数据集,隐去了求助者姓名,具体居住地址、联系方式和详细病情介绍等信息。

      表 2  求助人员信息表

      姓名年龄所在城市所在小区、社区患病时间求助日期
      程 ×25武汉市武昌区苑路梅苑1/242/5
      鲍××85武汉市青山区江南春城1/202/5
      毕××57武汉市青山区现代花园1/182/5
      卜××57武汉市硚口区赛达国际1/272/5
      张 ×35武汉市洪山区北洋桥鑫园1/232/5
      李 ×37武汉市东湖区江南家园2/12/5
      蔡××54武汉市武昌区杨园欧景苑1/302/5
    • 基于社交媒体数据挖掘获得的690例有效求助患者的详细区域统计数据如表3所示。从表3可以看出,虽然“肺炎患者求助超话”是面向所有公众开放的,但最终的统计数据表明,来源于湖北省以外的仅4例,来源于湖北省内,但不属于武汉市的仅12例。绝大部分(97.6%)的求助患者来源于武汉市。另一方面,社交媒体求助患者的数量在不同区域具有明显的差异。武昌、江汉、汉阳、硚口、江岸、洪山是求助患者的密集区,而新洲,江夏等区求助患者人数较少。

      表 3  武汉各地区求助数量

      编号区域名称求助人数面积/km2常驻人口/万人人口密度
      1省外4///
      2省内12///
      3江汉5528.2968.002.403 6
      4江岸11870.25100.001.423 4
      5硚口10141.4662.001.495 4
      6武昌120107.76126.371.172 7
      7洪山106220.50117.160.531 3
      8青山4480.4754.000.671 0
      9汉阳86111.5465.270.585 1
      10黄陂82 256.70113.320.050 2
      11东西湖15499.7158.480.117 0
      12蔡甸41 093.5746.660.042 6
      13新洲71 500.66105.000.069 9
      14江夏102 018.3091.370.045 2

      为了进一步地定量分析求助患者的地理分布信息,表3还记录了武汉市各区域的地理面积和常驻人口两项数据,并且通过定义常驻人口和地理面积的比表示人口密度。通过对比武汉市各区域人口密度的分布情况可以发现,除了江汉区因为人口密度特别大,数据表现异常之外,其他各区域求助患者人数和该区域人口密度表现出明显的正相关关系。

      在中心城区等人口密集区域,是求助患者分布的主要来源。同时,这个结果也从侧面说明,在重大传染性疾病疫情期间,人口密集区域,医疗资源、救助力量各方面都比较紧张,满足不了求助患者数量的需求,容易造成应急处置效率低等情况。而在人口相对稀少区域,医疗资源可满足大部分求助人群的需求,因此求助患者人数少。所以,医疗人员和收治床位等医疗资源的增加会减少求助患者的数量。

    • 基于社交媒体数据挖掘获得的690例有效求助患者的数据,每日患者求助数量随时间变化的分布如图1所示。

      图1可知,患者求助主要分布在2020年2月4日−7日这个时间段,这段时间内平均每日的患者求助数量都超过100次,其中数量最高峰出现在2月5日,数量接近200次。另一方面,从2020年2月8日开始,肺炎患者求助数量急剧下降,平均每日不超过20次。

      图  1  求助患者数量随时间分布

      为了进一步说明求助患者的分布规律,根据武汉市卫生健康委员会公布的《全市定点医院病床使用情况》[21]分析表,获取了武汉市2020年2月1日−22日期间,全市各定点医院总的开放床位数和空床位数如图2图3所示。

      图  2  武汉市收治床位数随时间分布

      图2可知,全市开放床位数在2020年2月8日出现了第一个大的拐点,这恰好跟图1中求助患者急剧减少的日期相对应。进一步的数据分析可以发现,2月8日,武汉火神山医院增设床位200个,雷神山医院开始投入运行,其他各定点医院一共增加床位255个。2020年2月9日,火神山、雷神山等定点医院开放床位数进一步增加,同时方舱医院启用,全国各地救援医疗队陆续到达武汉加入到疫情防控一线。正是由于医疗资源和医疗队伍得到保障,社交媒体上的求助患者才出现大幅度的下降,这也证明火神山、雷神山和方舱医院等定点医院的建设,在应对突发性传染病方面,具有非常重要的作用。

      图  3  武汉市空余床位数随时间分布

      另一方面,医疗资源是否满足当前防疫的需要,最直观的指标就是空床位数,由图3可知,从2020年2月8日开始,武汉市定点医院的空床位数才开始增加。虽然在2月8日以前,全市空床位数一直保持在170个左右,但这些数字均是由于出院、转院等因素造成的影响,真实情况下,2020年2月8日以前,武汉市各定点医院一直处于超饱和状态运行,这也是社交媒体上出现大量求助患者的重要原因。

    • 图4为本文690例有效求助患者的患病确诊时间随日期的分布图,其中也包括了中国疾控中心发布的确诊人数随日期变化的数据。整体趋势上来看,通过社交媒体获取的病例的流行病学历史与中国疾控中心发布的数据[5]大致吻合,两者的Pearson相关系数达到了0.925。两个数据均是从2020年1月15日开始,新型冠状病毒肺炎确诊患者显著增加,2020年1月20日开始出现了一个小跳跃式的增加,随后在2020年1月23日−28日达到第一个流行峰,然后缓慢下降。最后在2月1日出现一个异常高峰值,后逐渐下降。进一步定量地分析发现,以武汉“封城”的2020年1月23日为界限,在1月23日以前,中国疾控中心发布的确认人数分布数据明显高于社交媒体求助患者中的确诊人数分布,而在1月23日开始“封城”到1月28日,武汉确诊病例明显偏高。一方面是由于“封城”之后,阻止了感染人群的外流;另一方面,可能还是因为人员聚集,以及前期医疗资源紧张,居家隔离导致的大面积感染。

      图  4  求助患者确诊日期分布

      图5是每日求助患者确诊时间分布,由图可知,求助患者比较集中的2020年2月4日−7日,其确诊时间大多分布在2020年1月中旬至求助当天日期。由图中蓝色虚线可知,随着时间的推进,求助患者中早期确诊的人数越来越少,这基本符合国家“应收尽收,刻不容缓”的政策要求,也说明绝大多数患者都得到有效地救助和安排。

      图  5  每日求助患者日期分布

      但是,从2020年2月13日开始,由图5中红色椭圆区域可知,出现了一批早期确诊患者的求助信息。通过对红色区域的14例患者信息做进一步分析发现,这部分患者主要可分为两组:一组是已经正常住院求助康复者血浆,另一组是存在其他基础性疾病求助治疗。抗击新型冠状病毒肺炎期间,除了确诊收治病人,另外一个重要的工作就是针对新冠肺炎的新药、新治疗方法的研究。从社交媒体肺炎求助患者的数据可以发现,“血浆疗法”在医疗一线具有一定的影响力。另一方面,重大传染病疫情期间,本身具有其他基础性疾病的人群往往因为免疫力低下而容易被感染。尤其是接受化疗的患者,更是成为新型冠状病毒的易感人群,患者们只能居家监护,用药治疗。加上疫情期间,武汉多家肿瘤医院科被征用抗疫,造成一些患者的化疗时间被耽误,所以这些患者通过社交媒体寻求帮助。

    • 图6为社交媒体求助的690例有效患者的年龄分布图。从图中分析可得,求助患者大多数集中在50~80岁(71.88%)年龄段,年龄分布的中位数为60岁。此年龄分布与中国疾控中心[5]发布的新型冠状病毒肺炎确诊病例分布特征基本吻合,由图可知,老年患者更容易被新型冠状病毒感染。

      图7为社交媒体求助患者、武汉中心医院收治患者和中国疾控中心分别公布的年龄分布图。由图可知,社交媒体求助患者的年龄分布与武汉中心医院的数据曲线走势基本吻合,两者的Pearson相关系数达到了0.914,尤其在60~80岁的老年区间高度吻合,该结果从侧面进一步说明了社交媒体数据的实时性。

      另一方面,社交媒体求助患者与中国疾控中心公布曲线有一定的差距,两者的Pearson相关系数仅仅只有0.693。中国疾控中心的数据年龄分布中位数为41岁,高龄患者整体偏少,这主要是因为中国疾控中心的数据统计人群为全国患者,全国相比于疫情中心武汉,整体医疗资源相对宽松,导致高龄易感人群偏少。

      图  6  求助患者年龄分布

      图  7  不同数据来源年龄分布比较

    • 本文发现:社交媒体上获得的真实有效病例分析结果说明,新型冠状病毒肺炎的迅速蔓延最主要的原因是医疗资源的紧缺,造成应急处置工作运作低效,引发恐慌。在医疗队、收治床位等医疗资源满足需求以后,求助患者病例明显减少,疫情也得到了有效的遏止。另一方面发现:通过社交媒体对疫情期间的求助患者信息进行可视化呈现和统计分析,能更加有效、及时地获得其流行病学特征。下一步工作中,可以在此基础上引入传染性疾病的传播模型,有效分析疫情的时空演变和扩散特征,为进一步支援武汉、狙击疫情传播提供重要的数据参考。

      同时,本文的研究结果说明,在中央有关部门的正确领导下,从2020年1月24日开始,武汉以“中国速度”相继建立的火神山医院、雷神山医院以及若干方舱医院,增设数千张床位,有效地解决了大量患者无院可住的问题,让广大患者得到妥善的治疗和照顾,这在重大传染性疫情防控方面,具有非常重要的意义。湖北省政府、武汉市政府贯彻落实习近平总书记重要指示精神,不折不扣落实“四类人员”分类集中管理措施,真正做到应收尽收、不漏一人,这在切断传染源、降低传染率和缩短传播时间等方面发挥了重要的作用。

      综上所述,针对重大突发性传染疾病,社交媒体不但在舆论宣传上发挥作用,在流行病学分析上同样具有重要的意义。相关技术部门可以充分利用社交媒体的广泛性和及时性,通过社交媒体获得有效的数据病例,然后结合数据挖掘和大数据分析等方法,帮助国家决策部门快速掌握一线的真实情况,有助于政府部门迅速展开疫情防控工作。

      感谢太原市大数据应用局乔熙,太原理工大学公共安全大数据研究所廉涛、徐震寰的交流与讨论。

参考文献 (21)

目录

    /

    返回文章
    返回