-
自2019年12月以来,新型冠状病毒肺炎(COVID-19)感染者迅速增加[1],截至2020年2月20日全国发现感染病例7万余例[2]。目前,已有相关学者和科研机构对新冠肺炎病毒展开研究和分析。我国对新冠肺炎病毒的病原学、流行特征和致病机制等方面已基本掌握[3-8],这不仅为制定疫情防控策略和措施提供科学依据,也对全球社区了解新冠病毒提供了重要的参考。在遗传学、病毒学等领域,研究人员对病毒基因组序列展开研究[9-12],加速了对追溯病毒源头、预防疾病、研究疫苗等方面的工作进展。在疫情预测和评估方面,通过建立SEIR模型,加入不同参数进行仿真分析[13-16],不仅证明了模型分析与疫情发展的真实表现基本吻合,进一步肯定了对COVID-19疫情防控措施的有效性,对接下来做好疫情防控具有较好的指导价值。令人欣喜的是,我国在新冠病毒肺炎药物研发方面取得了重大进展[17-18],多种药物对治疗新型冠状病毒肺炎方面的患者起着积极有效的作用,加速推进了我国战胜疫情的步伐。
值得注意的是,以上相关研究大多侧重于新型冠状病毒肺炎的传播模型、流行病学特征、病因病理和治疗护理的某一个方面,而且大部分数据来源于国家或者地方卫健委官网,数据来源方式相对单一。最重要的是在疫情初期,政府无法快速获取一线真实有效数据,不利于开展疫情防控工作,也不利于有效措施的实施。而新一代信息技术作为国务院在“十二五”规划中确定的7个战略性新兴产业之一,在传统流行病学研究中的重要意义并未展现。
另一方面,近年来中国社交媒体的发展引人注目[19],相继出现了微信、微博、抖音等社交软件。社交媒体软件借助互联网的平台涵盖了以人类社交为核心的所有网络服务形式,助力互联网从研究部门、学校、政府、商业应用等平台扩展到每一个人,同时也造成社交数据的爆炸式增长。社交媒体数据之间存在大量信息和知识,而且可以广泛用于各种应用场景,包括商务管理、生产控制、工程设计、市场分析和科学探索等。但是如何有效地提取并利用这些信息成为一个巨大的挑战。为了解决这一问题,定向抓取相关网页资源的网络数据挖掘技术应运而生。网络数据挖掘可以通过程序或者脚本,按照一定的规则,自动地抓取万维网信息,实现对相关网页的数据资源分析。目前数据挖掘技术广泛应用在电力、经济、通信、民生等领域[20]。
本文通过Selenium数据挖掘技术,从社交媒体(新浪微博)上获得有效新型冠状病毒肺炎求助病例信息690例。随后利用该数据集,分别从求助患者的地理空间、求助人数、确诊日期和患病人员年龄4个方面,对新型冠状病毒肺炎的流行病学特征进行分析,最后结合社交媒体的广泛性、实时性特征,对发生重大传染性疾病期间,管理部门的各项政策效果进行了讨论和评估。
HTML
-
本文主要是基于开源的Web应用程序Selenium测试工具,结合Python编写的采集程序,在模拟操作浏览器的情况下,实现社交媒体工具上新型冠状病毒肺炎病例数据的自动采集。
新型冠状病毒肺炎疫情期间,新浪微博迅速成为民众了解疫情动态和走向的重要平台。平均每天超过2亿网友通过新浪微博关注疫情最新信息,获取疫情防治服务,参与公益募捐。微博上的疫情话题数量不断增长,截至2020年2月22日,累计88万名个人认证用户发布了1 688万条微博,内容涉及内容包括医疗、科普等多个领域。
针对新型冠状病毒肺炎疫情,新浪微博于2020年2月4日官方发布了“肺炎患者求助超话”,相关政府部门也设置专门的通道与求助者进行核实和对接。截至2020年2月22日,该超级话题收集帖子1 222个,关注粉丝57.5万,阅读量超过29亿。基于社交媒体数据挖掘方法,本文选取新浪微博“肺炎患者求助超话”求助专区上发布的求助信息为对象,研究新型冠状病毒肺炎疫情期间,社交媒体上求助病例的流行病学特征。其中,该求助超话包含的求助人员信息字段如表1所示。
序号 字段 1 姓名 2 年龄 3 所在城市 4 所在小区、社区 5 患病时间 6 病情描述 7 联系方式 截至2020年2月22日,本文通过数据挖掘方法在微博“肺炎患者求助超话”上一共获得有效求助病例数据690例,部分求助人员信息数据如表2所示。鉴于本文研究的重点在于新型冠状病毒肺炎病例的流行病学特征分析,所以求助人员信息主要侧重于“年龄,所在城市,所在小区、社区,患病时间,求助日期”共6个数据段。需要说明的是,微博超话中的患病时间,具体指的是患者的确诊时间,求助患者中绝大部分都给出了详细的确诊证明材料。另外出于保护个人隐私的需要,本文研究的最终数据集,隐去了求助者姓名,具体居住地址、联系方式和详细病情介绍等信息。
姓名 年龄 所在城市 所在小区、社区 患病时间 求助日期 程 × 25 武汉市 武昌区苑路梅苑 1/24 2/5 鲍×× 85 武汉市 青山区江南春城 1/20 2/5 毕×× 57 武汉市 青山区现代花园 1/18 2/5 卜×× 57 武汉市 硚口区赛达国际 1/27 2/5 张 × 35 武汉市 洪山区北洋桥鑫园 1/23 2/5 李 × 37 武汉市 东湖区江南家园 2/1 2/5 蔡×× 54 武汉市 武昌区杨园欧景苑 1/30 2/5
-
基于社交媒体数据挖掘获得的690例有效求助患者的详细区域统计数据如表3所示。从表3可以看出,虽然“肺炎患者求助超话”是面向所有公众开放的,但最终的统计数据表明,来源于湖北省以外的仅4例,来源于湖北省内,但不属于武汉市的仅12例。绝大部分(97.6%)的求助患者来源于武汉市。另一方面,社交媒体求助患者的数量在不同区域具有明显的差异。武昌、江汉、汉阳、硚口、江岸、洪山是求助患者的密集区,而新洲,江夏等区求助患者人数较少。
编号 区域名称 求助人数 面积/km2 常驻人口/万人 人口密度 1 省外 4 / / / 2 省内 12 / / / 3 江汉 55 28.29 68.00 2.403 6 4 江岸 118 70.25 100.00 1.423 4 5 硚口 101 41.46 62.00 1.495 4 6 武昌 120 107.76 126.37 1.172 7 7 洪山 106 220.50 117.16 0.531 3 8 青山 44 80.47 54.00 0.671 0 9 汉阳 86 111.54 65.27 0.585 1 10 黄陂 8 2 256.70 113.32 0.050 2 11 东西湖 15 499.71 58.48 0.117 0 12 蔡甸 4 1 093.57 46.66 0.042 6 13 新洲 7 1 500.66 105.00 0.069 9 14 江夏 10 2 018.30 91.37 0.045 2 为了进一步地定量分析求助患者的地理分布信息,表3还记录了武汉市各区域的地理面积和常驻人口两项数据,并且通过定义常驻人口和地理面积的比表示人口密度。通过对比武汉市各区域人口密度的分布情况可以发现,除了江汉区因为人口密度特别大,数据表现异常之外,其他各区域求助患者人数和该区域人口密度表现出明显的正相关关系。
在中心城区等人口密集区域,是求助患者分布的主要来源。同时,这个结果也从侧面说明,在重大传染性疾病疫情期间,人口密集区域,医疗资源、救助力量各方面都比较紧张,满足不了求助患者数量的需求,容易造成应急处置效率低等情况。而在人口相对稀少区域,医疗资源可满足大部分求助人群的需求,因此求助患者人数少。所以,医疗人员和收治床位等医疗资源的增加会减少求助患者的数量。
-
基于社交媒体数据挖掘获得的690例有效求助患者的数据,每日患者求助数量随时间变化的分布如图1所示。
由图1可知,患者求助主要分布在2020年2月4日−7日这个时间段,这段时间内平均每日的患者求助数量都超过100次,其中数量最高峰出现在2月5日,数量接近200次。另一方面,从2020年2月8日开始,肺炎患者求助数量急剧下降,平均每日不超过20次。
为了进一步说明求助患者的分布规律,根据武汉市卫生健康委员会公布的《全市定点医院病床使用情况》[21]分析表,获取了武汉市2020年2月1日−22日期间,全市各定点医院总的开放床位数和空床位数如图2和图3所示。
由图2可知,全市开放床位数在2020年2月8日出现了第一个大的拐点,这恰好跟图1中求助患者急剧减少的日期相对应。进一步的数据分析可以发现,2月8日,武汉火神山医院增设床位200个,雷神山医院开始投入运行,其他各定点医院一共增加床位255个。2020年2月9日,火神山、雷神山等定点医院开放床位数进一步增加,同时方舱医院启用,全国各地救援医疗队陆续到达武汉加入到疫情防控一线。正是由于医疗资源和医疗队伍得到保障,社交媒体上的求助患者才出现大幅度的下降,这也证明火神山、雷神山和方舱医院等定点医院的建设,在应对突发性传染病方面,具有非常重要的作用。
另一方面,医疗资源是否满足当前防疫的需要,最直观的指标就是空床位数,由图3可知,从2020年2月8日开始,武汉市定点医院的空床位数才开始增加。虽然在2月8日以前,全市空床位数一直保持在170个左右,但这些数字均是由于出院、转院等因素造成的影响,真实情况下,2020年2月8日以前,武汉市各定点医院一直处于超饱和状态运行,这也是社交媒体上出现大量求助患者的重要原因。
-
图4为本文690例有效求助患者的患病确诊时间随日期的分布图,其中也包括了中国疾控中心发布的确诊人数随日期变化的数据。整体趋势上来看,通过社交媒体获取的病例的流行病学历史与中国疾控中心发布的数据[5]大致吻合,两者的Pearson相关系数达到了0.925。两个数据均是从2020年1月15日开始,新型冠状病毒肺炎确诊患者显著增加,2020年1月20日开始出现了一个小跳跃式的增加,随后在2020年1月23日−28日达到第一个流行峰,然后缓慢下降。最后在2月1日出现一个异常高峰值,后逐渐下降。进一步定量地分析发现,以武汉“封城”的2020年1月23日为界限,在1月23日以前,中国疾控中心发布的确认人数分布数据明显高于社交媒体求助患者中的确诊人数分布,而在1月23日开始“封城”到1月28日,武汉确诊病例明显偏高。一方面是由于“封城”之后,阻止了感染人群的外流;另一方面,可能还是因为人员聚集,以及前期医疗资源紧张,居家隔离导致的大面积感染。
图5是每日求助患者确诊时间分布,由图可知,求助患者比较集中的2020年2月4日−7日,其确诊时间大多分布在2020年1月中旬至求助当天日期。由图中蓝色虚线可知,随着时间的推进,求助患者中早期确诊的人数越来越少,这基本符合国家“应收尽收,刻不容缓”的政策要求,也说明绝大多数患者都得到有效地救助和安排。
但是,从2020年2月13日开始,由图5中红色椭圆区域可知,出现了一批早期确诊患者的求助信息。通过对红色区域的14例患者信息做进一步分析发现,这部分患者主要可分为两组:一组是已经正常住院求助康复者血浆,另一组是存在其他基础性疾病求助治疗。抗击新型冠状病毒肺炎期间,除了确诊收治病人,另外一个重要的工作就是针对新冠肺炎的新药、新治疗方法的研究。从社交媒体肺炎求助患者的数据可以发现,“血浆疗法”在医疗一线具有一定的影响力。另一方面,重大传染病疫情期间,本身具有其他基础性疾病的人群往往因为免疫力低下而容易被感染。尤其是接受化疗的患者,更是成为新型冠状病毒的易感人群,患者们只能居家监护,用药治疗。加上疫情期间,武汉多家肿瘤医院科被征用抗疫,造成一些患者的化疗时间被耽误,所以这些患者通过社交媒体寻求帮助。
-
图6为社交媒体求助的690例有效患者的年龄分布图。从图中分析可得,求助患者大多数集中在50~80岁(71.88%)年龄段,年龄分布的中位数为60岁。此年龄分布与中国疾控中心[5]发布的新型冠状病毒肺炎确诊病例分布特征基本吻合,由图可知,老年患者更容易被新型冠状病毒感染。
图7为社交媒体求助患者、武汉中心医院收治患者和中国疾控中心分别公布的年龄分布图。由图可知,社交媒体求助患者的年龄分布与武汉中心医院的数据曲线走势基本吻合,两者的Pearson相关系数达到了0.914,尤其在60~80岁的老年区间高度吻合,该结果从侧面进一步说明了社交媒体数据的实时性。
另一方面,社交媒体求助患者与中国疾控中心公布曲线有一定的差距,两者的Pearson相关系数仅仅只有0.693。中国疾控中心的数据年龄分布中位数为41岁,高龄患者整体偏少,这主要是因为中国疾控中心的数据统计人群为全国患者,全国相比于疫情中心武汉,整体医疗资源相对宽松,导致高龄易感人群偏少。