留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于迁徙数据估计武汉感染新型冠状病毒的人员数量

杨政 原子霞 贾祖瑶

杨政, 原子霞, 贾祖瑶. 基于迁徙数据估计武汉感染新型冠状病毒的人员数量[J]. 电子科技大学学报, 2020, 49(3): 330-338. doi: 10.12178/1001-0548.2020030
引用本文: 杨政, 原子霞, 贾祖瑶. 基于迁徙数据估计武汉感染新型冠状病毒的人员数量[J]. 电子科技大学学报, 2020, 49(3): 330-338. doi: 10.12178/1001-0548.2020030
YANG Zheng, YUAN Zi-xia, JIA Zu-yao. Estimating the Number of People Infected with COVID-19 in Wuhan Based on Migration Data[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(3): 330-338. doi: 10.12178/1001-0548.2020030
Citation: YANG Zheng, YUAN Zi-xia, JIA Zu-yao. Estimating the Number of People Infected with COVID-19 in Wuhan Based on Migration Data[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(3): 330-338. doi: 10.12178/1001-0548.2020030

基于迁徙数据估计武汉感染新型冠状病毒的人员数量

doi: 10.12178/1001-0548.2020030
基金项目: 教育部人文社会科学研究青年基金(15YJC790132)
详细信息
    作者简介:

    杨政(1978-),男,博士生,副教授,主要从事金融计量和非线性时间序列分析等方面的研究. Email: yangzheng@uestc.edu.cn

  • 中图分类号: TP391; C81

Estimating the Number of People Infected with COVID-19 in Wuhan Based on Migration Data

  • 摘要: 根据武汉迁徙数据,该文通过统计分析2020年1月29日至2月9日全国50个城市感染新型冠状病毒的确诊人数比率,估计了武汉市感染病毒的人员数量。研究发现湖北省内15个城市的患者确诊比率在均值和中位数上低于省外35个城市的均值和中位数。截至2月9日,利用湖北省内城市确诊比率的均值、中位数和最大值估计,武汉市感染病毒的人数分别是已经确诊人数的2.1倍、2倍和3.9倍。利用省外城市确诊比率的均值、中位数和最大值估计,武汉市感染人数分别是已经确诊人数的3.6倍、2.6倍和8.7倍。最后利用Bootstrap方法对省内外城市的均值和中位数做了稳健性估计。
  • 图  1  基于10 000次Bootstrap抽样估计均值的直方图

    表  1  排名前50城市从武汉迁入的人数

    省内城市人数/万省外城市人数/万省外城市人数/万
    孝感市65.620信阳市7.190广州市2.660
    黄冈市63.630郑州市3.385深圳市2.610
    荆州市31.660南阳市3.360南京市1.845
    咸宁市25.340驻马店市3.320苏州市1.315
    鄂州市20.525周口市2.190杭州市1.690
    襄阳市19.240商丘市1.655温州市1.160
    黄石市18.875洛阳市1.120成都市2.650
    荆门市15.460长沙市5.755西安市1.855
    随州市14.980岳阳市2.560南宁市1.405
    仙桃市14.345常德市1.580昆明市1.245
    宜昌市13.850衡阳市1.215石家庄市1.135
    天门市10.165安庆市2.310贵阳市1.120
    恩施市9.310合肥市2.260厦门市1.115
    十堰市8.975阜阳市1.690北京市5.130
    潜江市5.610六安市1.155上海市3.855
    九江市2.720重庆市6.620
    南昌市2.490天津市1.140
    宜春市1.455
    下载: 导出CSV

    表  2  湖北省内和省外城市确诊比率的描述性统计

    城市时间均值中位数最大值第二大值第二小值最小值标准差JB值p值
    省内城市1月29日0.5070.4550.9810.9190.2230.1430.2391.0520.591
    1月30日0.6990.6081.3261.2350.3830.1780.3110.7240.696
    1月31日0.9700.8901.6711.5220.6270.2140.4130.5380.764
    2月1日1.2231.1062.0291.9930.6760.4810.5201.4440.486
    2月2日1.5351.3352.5632.5490.9710.6240.6601.6050.448
    2月3日1.8211.5763.0572.8521.1310.6240.7721.1770.555
    2月4日2.1491.9364.2793.2851.1510.7840.9941.2160.545
    2月5日2.4532.2524.7133.8201.2590.9631.0790.9770.613
    2月6日2.7812.8405.5674.0901.3581.1411.2510.9410.625
    2月7日3.0692.9816.1084.4041.6041.3191.3431.0080.604
    2月8日3.4353.5256.3624.8801.7191.4261.3410.4200.811
    2月9日3.5683.3656.5695.2031.8371.4621.4960.6910.708
    省外城市1月29日1.4761.0169.8283.0180.1790.0891.634552.4980.000
    1月30日1.9461.35914.8284.0830.1790.0892.420783.3190.000
    1月31日2.4741.78719.5695.0300.2680.0893.177859.6120.000
    2月1日2.8721.99320.7766.5130.4460.3573.413693.0420.000
    2月2日3.1322.13122.8457.5100.6250.5363.796637.5180.000
    2月3日3.3362.46925.0868.6590.6250.6254.126724.1370.000
    2月4日4.2802.94629.31010.3071.0710.8934.795667.9810.000
    2月5日4.6703.29931.37911.0731.5181.0715.124658.6240.000
    2月6日5.0663.63334.13812.0311.8751.3395.556681.7830.000
    2月7日5.4723.84936.29312.7972.0631.6075.907665.0060.000
    2月8日5.7344.17737.75913.4482.0631.6076.142661.3690.000
    2月9日6.0254.49238.62114.0232.1151.9646.274641.1410.000
    下载: 导出CSV

    表  3  每天确诊比率极值对应的城市

    城市时间最大值第二大值第二小值最小值
    省内城市1月29日十堰市荆门市仙桃市潜江市
    1月30日十堰市荆门市仙桃市潜江市
    1月31日十堰市随州市仙桃市潜江市
    2月1日随州市宜昌市仙桃市潜江市
    2月2日随州市宜昌市咸宁市潜江市
    2月3日随州市十堰市天门市潜江市
    2月4日随州市襄阳市天门市潜江市
    2月5日随州市襄阳市天门市潜江市
    2月6日随州市襄阳市天门市潜江市
    2月7日随州市宜昌市天门市潜江市
    2月8日随州市十堰市恩施市潜江市
    2月9日随州市十堰市恩施市潜江市
    省外城市1月29日温州市杭州市洛阳市贵阳市
    1月30日温州市杭州市洛阳市贵阳市
    1月31日温州市杭州市洛阳市贵阳市
    2月1日温州市深圳市洛阳市贵阳市
    2月2日温州市深圳市洛阳市贵阳市
    2月3日温州市深圳市洛阳市贵阳市
    2月4日温州市深圳市洛阳市贵阳市
    2月5日温州市深圳市洛阳市贵阳市
    2月6日温州市深圳市洛阳市贵阳市
    2月7日温州市深圳市厦门市贵阳市
    2月8日温州市深圳市厦门市贵阳市
    2月9日温州市深圳市石家庄市贵阳市
    下载: 导出CSV

    表  4  均值和中位数检验

    时间均值检验${H_0}$: ${M_{\rm {hubeicity}}} = {M_{\rm {othercity}}}$中位数检验${H_0}$: ${{\rm {Med_{hubeicity}}}} = {{\rm {Med_{othercity}}}}$
    Welch Fp-valueChi-squarep-value
    1月29日11.7050.002***11.5240.001***
    1月30日8.9480.005***11.5240.001***
    1月31日7.5480.009***7.7140.006***
    2月1日7.7500.008***4.6670.031**
    2月2日5.7830.021**2.3810.123
    2月3日6.6920.014**4.6670.031**
    2月4日6.2820.016**4.6670.031**
    2月5日5.9370.019**4.6670.031**
    2月6日5.2930.027**4.6670.031**
    2月7日5.1670.028**2.3810.123
    2月8日4.4150.042**2.3810.123
    2月9日4.7410.035**0.8570.355
      注:***,**和*表示在1%、5%和10%置信水平上显著
    下载: 导出CSV

    表  5  6种情况下武汉感染人数的估计

    城市时间均值中位数最大值第二大值第二小值最小值公布的确诊人数
    省内城市1月29日4 4834 0208 6658 1171 9711 2601 905
    1月30日6 1785 37311 71710 9183 3881 5752 261
    1月31日8 5727 86614 77013 4515 5441 8902 639
    2月1日10 8119 77417 93417 6115 9764 2533 215
    2月2日13 56511 79922 65422 5248 5795 5134 109
    2月3日16 08813 92927 01925 2079 9985 5135 142
    2月4日18 99317 11137 81529 02910 1726 9316 384
    2月5日21 68019 90241 65033 76011 1288 5068 351
    2月6日24 57525 09749 20136 14811 99810 08210 117
    2月7日27 12626 34753 98038 92214 17111 65711 618
    2月8日30 35231 15056 22143 12815 18812 60213 603
    2月9日31 53129 73558 05045 98316 23212 91714 982
    省外城市1月29日13 0408 97586 84926 6691 5787891 905
    1月30日17 19712 009131 03636 0811 5787892 261
    1月31日21 86215 791172 93744 4482 3687892 639
    2月1日25 38317 614183 60357 5613 9453 1563 215
    2月2日27 67518 829201 88666 3654 7345 5234 109
    2月3日29 48021 820221 69476 5225 5235 5235 142
    2月4日37 82326 038259 02491 0829 4687 8916 384
    2月5日41 27129 154277 30897 85413 4149 4698 351
    2月6日44 76532 104301 687106 31816 57011 83610 117
    2月7日48 35634 015320 733113 09018 22914 20311 618
    2月8日50 67436 915333 684118 84618 22914 20313 603
    2月9日53 24839 699341 303123 92518 68717 35914 982
    下载: 导出CSV

    表  6  武汉感染人数的估计和公布确诊人数的比值

    城市时间均值中位数最大值第二大值第二小值最小值公布的确诊人数
    省内城市1月29日2.42.14.54.31.00.71.0
    1月30日2.72.45.24.81.50.71.0
    1月31日3.23.05.65.12.10.71.0
    2月1日3.43.05.65.51.91.31.0
    2月2日3.32.95.55.52.11.31.0
    2月3日3.12.75.34.91.91.11.0
    2月4日3.02.75.94.51.61.11.0
    2月5日2.62.45.04.01.31.01.0
    2月6日2.42.54.93.61.21.01.0
    2月7日2.32.34.63.41.21.01.0
    2月8日2.22.34.13.21.10.91.0
    2月9日2.12.03.93.11.10.91.0
    省外城市1月29日6.84.745.614.00.80.41.0
    1月30日7.65.358.016.00.70.31.0
    1月31日8.36.065.516.80.90.31.0
    2月1日7.95.557.117.91.21.01.0
    2月2日6.74.649.116.21.31.01.0
    2月3日5.74.243.113.61.11.01.0
    2月4日5.94.140.614.31.51.21.0
    2月5日4.93.533.211.71.61.11.0
    2月6日4.43.229.810.51.61.21.0
    2月7日4.22.927.69.71.61.21.0
    2月8日3.72.724.58.71.31.01.0
    2月9日3.62.622.88.31.21.21.0
    下载: 导出CSV

    表  7  基于bootstrap抽样计算的省内外城市的均值和中位数

    时间省内城市省外城市
    均值中位数均值中位数
    1月29日0.5080.4611.4731.054
    1月30日0.6980.6551.9501.383
    1月31日0.9700.8922.4761.808
    2月1日1.2251.0932.8642.035
    2月2日1.5351.3533.2602.280
    2月3日1.8211.6613.7012.668
    2月4日2.1491.9574.2873.017
    2月5日2.4492.3084.6903.341
    2月6日2.7802.6785.1253.596
    2月7日3.0702.9535.4993.874
    2月8日3.4323.3975.7484.137
    2月9日3.5703.4626.0294.408
    下载: 导出CSV
  • [1] DONALD R J, SINGER B M D, FBPHARMS F. A new pandemic out of China: The Wuhan coronavirus syndrome[J]. Health Policy and Technology, 2020, 9(1): 1-2. doi:  10.1016/j.hlpt.2020.02.001
    [2] PHAN T. Novel coronavirus: From discovery to clinical diagnostics[J]. Infection, Genetics and Evolution, 2020, 79: 104211. doi:  10.1016/j.meegid.2020.104211
    [3] PARASKEVIS D, KOSTAKI E G, MAGIORKINIS G, et al. Full-genome evolutionary analysis of the novel corona virus (2019-nCoV) rejects the hypothesis of emergence as a result of a recent recombination event[J]. Infection, Genetics and Evolution, 2020, 79: 104212. doi:  10.1016/j.meegid.2020.104212
    [4] BAO Yan-ping, SUN Yan-kun, MENG Shi-qiu, et al. 2019-nCoV epidemic: Address mental health care to empower society[J]. The Lancet, 2020, 395(10224): E37-E38. doi:  10.1016/S0140-6736(20)30309-3
    [5] WANG Fu-sheng, ZHANG Chao. What to do next to control the 2019-nCoV epidemic?[J]. The Lancet, 2020, DOI:  10.1016/S0140-6736(20)30300-7.
    [6] ZHOU Tao, LIU Quan-hui, YANG Zi-mo, et al. Preliminary prediction of the basic reproduction number of the novel coronavirus 2019-nCoV[EB/OL]. [2020-02-03]. http//arxiv.org/abs/2001.10530.
    [7] TANG Biao, WANG Xia, LI Qian, et al. Estimation of the transmission risk of 2019-nCov and its implication for public health interventions[DB/OL]. (2020-01-27). https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3525558.
    [8] GUAN Wei-jie, NI Zheng-yi, HU Yu, et al. Clinical characteristics of 2019 novel coronavirus infection in China [EB/OL]. (2020-02-06). https://www.medrxiv.org/content/10.1101/2020.02.06.20020974v1.
    [9] WU J T, LEUNG K, LEUNG G M. Nowcasting and forecasting the potential domestic and international spread of the 2019-nCoV outbreak originating in Wuhan, China: A modelling study[J]. The Lancet, 2020, 395(10225): 689-697.
    [10] HUANG N E, QIAO Fang-li. A data driven time-dependent transmission rate for tracking an epidemic: A case study of 2019-nCoV[J]. Science Bulletin, 2020, 65(6): 425-427. doi:  10.1016/j.scib.2020.02.005
    [11] BROOKS C. Introductory econometrics for finance[M]. 3rd Ed. Cambridge: Cambridge University Press, 2014.
    [12] WELCH B L. On the comparison of several mean values: An alternative approach[J]. Biometrika, 1951, 38(3-4): 330-336. doi:  10.1093/biomet/38.3-4.330
    [13] CONOVER W J. Rank tests for one sample, two samples, and k samples without the assumption of a continuous distribution function[J]. The Annals of Statistics, 1973, 1(6): 1105-1125. doi:  10.1214/aos/1176342560
    [14] EFRON B. Bootstrap methods: Another look at the Jackknife[J]. The Annals of Statistics, 1992, 7: 1-26.
  • [1] 王聪, 严洁.  百度迁徙规模指数构造方法反演 . 电子科技大学学报, 2021, 50(4): 616-626. doi: 10.12178/1001-0548.2020441
    [2] 梁凯豪, 张文峰, 张小花, 吴卓葵, 刘芹, 张超龙, 李梓龙.  冠状病毒SARS-CoV-2、SARS-CoV和MERS-CoV的传染动力学分析 . 电子科技大学学报, 2020, 49(3): 349-356. doi: 10.12178/1001-0548.2020067
    [3] 陈端兵, 白薇, 王岩, 王敏, 俞伍平, 周涛.  新型冠状病毒肺炎防控效果的定量评估 . 电子科技大学学报, 2020, 49(3): 339-344. doi: 10.12178/1001-0548.2020144
    [4] 范如国, 王奕博, 罗明, 张应青, 朱超平.  基于SEIR的新冠肺炎传播模型及拐点预测分析 . 电子科技大学学报, 2020, 49(3): 369-374. doi: 10.12178/1001-0548.2020029
    [5] 任高明, 夏靖波, 乔向东, 杨仝.  一种用于小流估计的数据包公平抽样算法 . 电子科技大学学报, 2014, 43(4): 601-606. doi: 10.3969/j.issn.1001-0548.2014.04.023
    [6] 廖红舒, 魏平, 李万春.  基于有限长样本数据的信噪比估计 . 电子科技大学学报, 2012, 41(3): 364-367. doi: 10.3969/j.issn.1001-0548.2012.03.007
    [7] 张晓玲, 陈钦, 韦顺军.  基于MUSIC算法的Pol-InSAR相位估计方法 . 电子科技大学学报, 2011, 40(5): 652-657. doi: 10.3969/j.issn.1001-0548.2011.05.003
    [8] 郑济均, 林竞力, 朱维乐.  基于倒谱分析的OFDM信道估计方法 . 电子科技大学学报, 2011, 40(4): 509-511. doi: 10.3969/j.issn.1001-0548.2011.04.006
    [9] 陈晓梅, 孟晓风, 王国华.  自适应阈值估计的MS模型仿真建模 . 电子科技大学学报, 2011, 40(1): 58-63. doi: 10.3969/j.issn.1001-0548.2011.01.011
    [10] 牟青, 魏平.  CCSK信号的扩频序列估计 . 电子科技大学学报, 2011, 40(4): 501-504. doi: 10.3969/j.issn.1001-0548.2011.04.004
    [11] 牟青, 魏平.  低信噪比下长码直扩信号的符号宽度估计 . 电子科技大学学报, 2011, 40(3): 352-356. doi: 10.3969/j.issn.1001-0548.2011.03.004
    [12] 吴大鹏, 武穆清, 甄岩, 孙兵.  带有碰撞感知的MANET可用带宽估计方法 . 电子科技大学学报, 2009, 38(6): 1031-1033. doi: 10.3969/j.issn.1001-0548.2009.06.029
    [13] 熊波, 李国林, 尚雅玲, 高云剑.  信号相关性与DOA估计 . 电子科技大学学报, 2007, 36(5): 907-910.
    [14] 何羚, 张鑫, 王健, 宋仁清.  基于定点DSP的高性能FFT谱估计 . 电子科技大学学报, 2006, 35(2): 145-148.
    [15] 徐海波, 杜欢, 张振仁.  OFDM信道估计的子空间方法 . 电子科技大学学报, 2006, 35(5): 752-754.
    [16] 刘辉, 戴波, 张艳, 张文彬.  LogP简化模型参数估计 . 电子科技大学学报, 2005, 34(2): 229-232.
    [17] 王亮, 雷航.  基于资源回收的容错单调比率调度 . 电子科技大学学报, 2004, 33(4): 438-441.
    [18] 万群, 杨万麟.  分布式信号源波达方向估计方法 . 电子科技大学学报, 2001, 30(1): 1-4,25.
    [19] 何子述, 黄振兴, 向敬成.  基于数据阵共轭重构的MUSIC角估计算法 . 电子科技大学学报, 1999, 28(2): 111-115.
    [20] 罗艳.  指数分布参数基于不完全数据的区间估计 . 电子科技大学学报, 1998, 27(4): 445-448.
  • 加载中
图(1) / 表(7)
计量
  • 文章访问数:  6730
  • HTML全文浏览量:  2927
  • PDF下载量:  172
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-02-05
  • 修回日期:  2020-02-13
  • 网络出版日期:  2020-04-21
  • 刊出日期:  2020-05-01

基于迁徙数据估计武汉感染新型冠状病毒的人员数量

doi: 10.12178/1001-0548.2020030
    基金项目:  教育部人文社会科学研究青年基金(15YJC790132)
    作者简介:

    杨政(1978-),男,博士生,副教授,主要从事金融计量和非线性时间序列分析等方面的研究. Email: yangzheng@uestc.edu.cn

  • 中图分类号: TP391; C81

摘要: 根据武汉迁徙数据,该文通过统计分析2020年1月29日至2月9日全国50个城市感染新型冠状病毒的确诊人数比率,估计了武汉市感染病毒的人员数量。研究发现湖北省内15个城市的患者确诊比率在均值和中位数上低于省外35个城市的均值和中位数。截至2月9日,利用湖北省内城市确诊比率的均值、中位数和最大值估计,武汉市感染病毒的人数分别是已经确诊人数的2.1倍、2倍和3.9倍。利用省外城市确诊比率的均值、中位数和最大值估计,武汉市感染人数分别是已经确诊人数的3.6倍、2.6倍和8.7倍。最后利用Bootstrap方法对省内外城市的均值和中位数做了稳健性估计。

English Abstract

杨政, 原子霞, 贾祖瑶. 基于迁徙数据估计武汉感染新型冠状病毒的人员数量[J]. 电子科技大学学报, 2020, 49(3): 330-338. doi: 10.12178/1001-0548.2020030
引用本文: 杨政, 原子霞, 贾祖瑶. 基于迁徙数据估计武汉感染新型冠状病毒的人员数量[J]. 电子科技大学学报, 2020, 49(3): 330-338. doi: 10.12178/1001-0548.2020030
YANG Zheng, YUAN Zi-xia, JIA Zu-yao. Estimating the Number of People Infected with COVID-19 in Wuhan Based on Migration Data[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(3): 330-338. doi: 10.12178/1001-0548.2020030
Citation: YANG Zheng, YUAN Zi-xia, JIA Zu-yao. Estimating the Number of People Infected with COVID-19 in Wuhan Based on Migration Data[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(3): 330-338. doi: 10.12178/1001-0548.2020030
  • 新型冠状病毒肺炎已经成为国际关注的重大紧急公共卫生事件,给人民的生命和生活造成严重危害。因此,阻击病毒传染成了全国人民的共同战役。从2020年1月23日武汉开始“封城”后,各个省市采取多种防控措施。居民按照专家建议减少外出活动,在家隔离以降低被感染的风险。

    2020年1月23日−2月4日,武汉市确诊人数和疑似病例的数据不断升高。国家在武汉投入更多的力量医治确诊病人,如紧急调拨物资、建立火神山和雷神山医院、派出多批次的支援医疗队等。这些措施给全国人民带来了战胜病毒的信心。此时,明确武汉市感染者的数量对于防控、诊断和治疗有重要意义。那么,武汉市目前受感染的人数有多少?这是本文拟研究的问题。

    从Elsevier数据库查阅到新型冠状病毒的相关论文大约有70余篇,大致分为两类。一类侧重于从医学方面探讨新型冠状病毒的来源[1]、发现和临床诊断[2]、病毒基因分析[3]、公众心理健康[4]以及如何控制病毒流行[5]等问题。

    另一类论文利用大数据、传播动力学模型、统计计算方法等工具对疫情进行了预测分析。文献[6]基于包括“易感态-潜伏态-感染态-移除态”的SEIR仓室模型,对病毒的基本再生数进行估计。以《人民日报》新型冠状病毒肺炎疫情实时动态数据为基准,估计基本再生数在2.8~3.3之间;以国外同行预测的感染人数为基准,基本再生数在3.2~3.9之间。文献[7]利用传播动力学模型,对新型冠状病毒肺炎传播风险进行了预测分析。该文利用2020年1月10日−1月22日的报告疫情数据,采用动力学模型和统计计算方法预测基本再生数为6.47(95%置信区间为 5.71~7.23),给出了疫情的达峰时间、峰值及最终感染规模,按照2020年1月22日前的控制措施,疫情将在3月10日左右达到峰值。文献[8]分析了分布在全国31个省市自治区、552家医院的1 099个确诊病例的临床特征、潜伏期、诊断情况、治疗方式等要素,发现新型冠状病毒感染的平均潜伏期为3天。文献[9]预测了新型冠状病毒感染者的人数,估计2020年1月25日的感染人数约7.5万人。文献[10]根据自然增长规律动态提出数据驱动的预测方法,跟踪疫情发展并检测干预措施的有效性。在2020年2月5日预测约4天后(2月9日)达到峰值,确诊病例总数将在3.7万~4.4万之间。

    上述研究并没有直接针对武汉市的感染者人数进行预估。本文在疫情前期把武汉市所有民众看作一个样本总体,离开武汉和留在武汉是由同一个总体分布中抽取的两组随机样本。本文把离开武汉的民众视为实验组样本,把留在武汉的民众视为对照组样本。武汉市受到医护人员不足和医疗物资紧缺的约束,对照组样本的确诊人数低于实际被感染人数。所以,利用实验组样本的确诊数据,分析其统计分布的数字特征,借鉴这些数字特征对武汉市的感染人数进行估计。简单来说,就是利用实验组样本的统计参数,估计对照组样本未受约束时的发展状况。

    • 本文利用百度迁徙数据来估计武汉目前受感染的人数。统计从武汉迁入人员数量排名前50位城市的人数,迁徙时间从2020年1月10日至1月22日。表1给出了排名前50位城市从武汉迁入的人数。

      表 1  排名前50城市从武汉迁入的人数

      省内城市人数/万省外城市人数/万省外城市人数/万
      孝感市65.620信阳市7.190广州市2.660
      黄冈市63.630郑州市3.385深圳市2.610
      荆州市31.660南阳市3.360南京市1.845
      咸宁市25.340驻马店市3.320苏州市1.315
      鄂州市20.525周口市2.190杭州市1.690
      襄阳市19.240商丘市1.655温州市1.160
      黄石市18.875洛阳市1.120成都市2.650
      荆门市15.460长沙市5.755西安市1.855
      随州市14.980岳阳市2.560南宁市1.405
      仙桃市14.345常德市1.580昆明市1.245
      宜昌市13.850衡阳市1.215石家庄市1.135
      天门市10.165安庆市2.310贵阳市1.120
      恩施市9.310合肥市2.260厦门市1.115
      十堰市8.975阜阳市1.690北京市5.130
      潜江市5.610六安市1.155上海市3.855
      九江市2.720重庆市6.620
      南昌市2.490天津市1.140
      宜春市1.455

      为了估算武汉市感染新型冠状病毒的人数,本文做出如下假设。

      假设1:2020年1月10日−1月22日离开武汉的迁徙数据是准确的。

      由于并没有一手的人员流动数据,故以网络报道的百度迁徙数据为准。百度迁徙数据是根据迁徙人员的手机在不同地点的定位统计的,准确性较高。例如本文根据迁徙数据计算从武汉到信阳的人数是7.19万人(新闻报道的数据是8.046万人,包括了22日之后的迁徙人数)。因此,在2020年1月22日之前的迁徙数据具有较高的可信度。在50个城市中,迁徙人员是确诊新冠病毒肺炎患者的直接来源,至少在潜伏期间迁徙数据是一个最主要的影响因子。因此,50个城市的确诊病例应该是以武汉迁入人员为主。在潜伏期之后,武汉迁入人员经过病毒潜伏期,确诊比率应该会下降。在病毒的潜伏期内,50个城市本地居民受到武汉迁入人员传染,确诊比率应该会升高。从武汉迁入50个城市的人员数量仍然是一个基础变量,它持续影响了后续感染患者的数量。

      假设2:从武汉迁徙到50个城市的人数在未来一段时间内保持不变。

      这个假设是为了对应“封城”后武汉的人数保持不变。计算50 个城市感染患者人数的基数也应该保持不变。事实上,这个假设对个别城市可能不成立,如温州市,据报道2020年1月22日之后从武汉到温州的人数比之前的人数更多。这对研究结果有一定影响,因此在后面研究中做了一些修正。

      假设3:留在武汉和离开武汉人员感染病毒的概率是同一个分布。

      这个假设是估计武汉感染人数的一个重要前提。假设意味着离开和留在武汉的人员都是同一个概率分布的样本。这个假设在2020年1月22日之后几天可能是成立的。由于本文整理数据是2020年从1月29日开始,距离1月22日已经有7天的时间间隔。通过检验湖北省内城市和省外城市的确诊比率,发现两者并不是同一个分布。为此,本文把50个城市分成两组。一组是湖北省内的15个城市,另一组是省外的35个城市。即使这两组样本的分布不同,仍然假设武汉属于这两组样本中的某一种情况。如果武汉不属于这两组样本,那会是一种最差的情况。

      假设4:样本期内留在武汉和离开武汉确诊的人员都是源于相同的病毒感染模式。

      这个假设表示武汉市的确诊人员和其他城市的确诊人员是相同的感染模式。比如,其他城市前期的确诊人员都是从武汉迁入被确诊,后期的部分确诊人员是受迁移人员传染而被确诊。武汉市早期的确诊人员和其他城市早期的确诊人员是同一批感染者,后期的部分人员受他人传染被确诊。

      除了收集50个城市从武汉迁徙来的人员数量,利用百度新型冠状病毒肺炎-疫情实时大数据报告,收集整理这些城市从2020年1月29日至2月9日的确诊人数,并从万德(Wind)数据库收集武汉市的户籍人口数据。

    • $i = 1,2, \cdots ,50$表示50个城市中的第i个城市,用${x_{t,i}}$表示第i个城市在第$t$天的累积确诊人数,用${y_i}$表示从武汉迁出到第i个城市的人数。计算第i个城市每天的确诊比率${p_{t,i}}$为:

      $${p_{t,i}} = \frac{{{x_{t,i}}}}{{{y_i}}} \times 1\;000$$ (1)

      这样得到50个城市累计确诊比率的时间序列数据。

      接下来,用R软件对各城市每天的数据进行描述性统计分析。为了避免个别城市的特殊值影响整体分析,除了最大值和最小值,还在描述性统计中增加了第二大值和第二小值。表2给出湖北省内和省外城市在确诊比率方面的描述性统计。由于确诊人数是累计值而不是每天增量值。因此均值、中位数、最大值、最小值和标准差等随着时间增加而变大。对比省内外城市,省外城市在均值,中位数、标准差、最大值及第二大值这些统计量的数值上都大于当日的省内城市。省外城市确诊比率的最小值和第二小值在5日和6日之前都小于省内城市,之后都大于省内城市。原因是省内城市早期有确诊人员,初始值较大,但是受限于医务人员的不足,确诊比率增长较慢。省外城市的初始值小,随着省外城市的医疗资源充足,潜在患者被迅速确诊,确诊比率的最小值和第二小值迅速超过省内城市。

      表2中雅克贝拉(Bera–Jarque, JB)检验统计量用于检验分布是否属于正态分布。对于每日确诊比率,检验原假设${H_0}:{p_{t}}$,服从标准正态分布。根据文献[11],定义JB统计量为:

      $${\rm {JB}} = N\left[ {\frac{{b_1^2}}{6} + \frac{{{{({b_2} - 3)}^2}}}{{24}}} \right]$$ (2)

      式中,偏度${b_1} = \dfrac{{E\left[ {p_{t, \cdot }^3} \right]}}{{{{({\sigma ^2})}^{3/2}}}}$;峰度${b_2} = \dfrac{{E\left[ {p_{t, \cdot }^{\rm{4}}} \right]}}{{{{({\sigma ^2})}^{\rm{2}}}}}$;方差${\sigma ^{\rm{2}}}{\rm{ = }}E{({p_{t, \cdot }} - {\bar p_{t, \cdot }})^2}$以及均值${\bar p_{t, \cdot }} = E{p_{t,i}}$N为样本数。从雅克贝拉(JB)检验p值来看,在10%的显著性水平上,省内城市并不拒绝每日的确诊比率服从正态分布。省外城市的p值都小于1%,则拒绝每日确诊比率是正态分布。根据表2找到湖北省内和省外出现极值的城市,见表3。湖北省内城市的感染情况更严重,不同城市出现在最大值和第二大值。特别是随州市,虽然在确诊的绝对人数上没有孝感市和黄冈市高,但是确诊比率在省内城市中连续7日保持第一,表明随州市的疫情非常严峻。

      表 2  湖北省内和省外城市确诊比率的描述性统计

      城市时间均值中位数最大值第二大值第二小值最小值标准差JB值p值
      省内城市1月29日0.5070.4550.9810.9190.2230.1430.2391.0520.591
      1月30日0.6990.6081.3261.2350.3830.1780.3110.7240.696
      1月31日0.9700.8901.6711.5220.6270.2140.4130.5380.764
      2月1日1.2231.1062.0291.9930.6760.4810.5201.4440.486
      2月2日1.5351.3352.5632.5490.9710.6240.6601.6050.448
      2月3日1.8211.5763.0572.8521.1310.6240.7721.1770.555
      2月4日2.1491.9364.2793.2851.1510.7840.9941.2160.545
      2月5日2.4532.2524.7133.8201.2590.9631.0790.9770.613
      2月6日2.7812.8405.5674.0901.3581.1411.2510.9410.625
      2月7日3.0692.9816.1084.4041.6041.3191.3431.0080.604
      2月8日3.4353.5256.3624.8801.7191.4261.3410.4200.811
      2月9日3.5683.3656.5695.2031.8371.4621.4960.6910.708
      省外城市1月29日1.4761.0169.8283.0180.1790.0891.634552.4980.000
      1月30日1.9461.35914.8284.0830.1790.0892.420783.3190.000
      1月31日2.4741.78719.5695.0300.2680.0893.177859.6120.000
      2月1日2.8721.99320.7766.5130.4460.3573.413693.0420.000
      2月2日3.1322.13122.8457.5100.6250.5363.796637.5180.000
      2月3日3.3362.46925.0868.6590.6250.6254.126724.1370.000
      2月4日4.2802.94629.31010.3071.0710.8934.795667.9810.000
      2月5日4.6703.29931.37911.0731.5181.0715.124658.6240.000
      2月6日5.0663.63334.13812.0311.8751.3395.556681.7830.000
      2月7日5.4723.84936.29312.7972.0631.6075.907665.0060.000
      2月8日5.7344.17737.75913.4482.0631.6076.142661.3690.000
      2月9日6.0254.49238.62114.0232.1151.9646.274641.1410.000

      表 3  每天确诊比率极值对应的城市

      城市时间最大值第二大值第二小值最小值
      省内城市1月29日十堰市荆门市仙桃市潜江市
      1月30日十堰市荆门市仙桃市潜江市
      1月31日十堰市随州市仙桃市潜江市
      2月1日随州市宜昌市仙桃市潜江市
      2月2日随州市宜昌市咸宁市潜江市
      2月3日随州市十堰市天门市潜江市
      2月4日随州市襄阳市天门市潜江市
      2月5日随州市襄阳市天门市潜江市
      2月6日随州市襄阳市天门市潜江市
      2月7日随州市宜昌市天门市潜江市
      2月8日随州市十堰市恩施市潜江市
      2月9日随州市十堰市恩施市潜江市
      省外城市1月29日温州市杭州市洛阳市贵阳市
      1月30日温州市杭州市洛阳市贵阳市
      1月31日温州市杭州市洛阳市贵阳市
      2月1日温州市深圳市洛阳市贵阳市
      2月2日温州市深圳市洛阳市贵阳市
      2月3日温州市深圳市洛阳市贵阳市
      2月4日温州市深圳市洛阳市贵阳市
      2月5日温州市深圳市洛阳市贵阳市
      2月6日温州市深圳市洛阳市贵阳市
      2月7日温州市深圳市厦门市贵阳市
      2月8日温州市深圳市厦门市贵阳市
      2月9日温州市深圳市石家庄市贵阳市

      省外城市在2020年1月29日−2月9日期间的变化不大。前3日确诊比率最高的是浙江温州和杭州。随着浙江采取严格的防控措施,2月1日之后确诊比率第二大值出现在深圳市。确诊比率最小值一直由贵阳市保持。第二小值在洛阳市、厦门市和石家庄市中变换。

      对比湖北省内城市和省外城市的表现。考虑到省内和省外城市的样本数和分布相同,采用文献[12]提出的F检验做省内外的均值相等性检验,采用文献[13]的${\chi ^2}$检验做中位数相等性检验。应用R软件检验均值和中位数的相等性,检验结果见表4

      从均值检验结果看,表4显示省内外均值相等的原假设在5%水平被显著拒绝,说明湖北省内城市和省外城市的均值差异明显。从中位数检验看,2020年1月30日−2月1日,中位数相等的原假设在1%水平上被显著拒绝。2月2日的中位数检验在10%水平上并不显著。在2月3日−6日的结果出现反转,显示省内中位数持续低于省外的中位数。一个好的信号出现在2月7日,p值在10%水平上不拒绝省内外中位数相等的原假设。这说明湖北省内和省外的确诊状况暂时进入一个新阶段。2月8日和9日的中位数检验结果强化了这一结论。

    • 根据式(1),估计每日武汉感染人数为:

      $${\hat x_{t,j}} = \frac{{{p_{t,j}}*y}}{{1\;000}}$$ (3)

      表 4  均值和中位数检验

      时间均值检验${H_0}$: ${M_{\rm {hubeicity}}} = {M_{\rm {othercity}}}$中位数检验${H_0}$: ${{\rm {Med_{hubeicity}}}} = {{\rm {Med_{othercity}}}}$
      Welch Fp-valueChi-squarep-value
      1月29日11.7050.002***11.5240.001***
      1月30日8.9480.005***11.5240.001***
      1月31日7.5480.009***7.7140.006***
      2月1日7.7500.008***4.6670.031**
      2月2日5.7830.021**2.3810.123
      2月3日6.6920.014**4.6670.031**
      2月4日6.2820.016**4.6670.031**
      2月5日5.9370.019**4.6670.031**
      2月6日5.2930.027**4.6670.031**
      2月7日5.1670.028**2.3810.123
      2月8日4.4150.042**2.3810.123
      2月9日4.7410.035**0.8570.355
        注:***,**和*表示在1%、5%和10%置信水平上显著

      式中,$y = 883.73$万是武汉市的户籍人数;${p_{t,j}}$表2的比率,表示第$t$日第j种情况下的数值;$j$分别表示均值、中位数、最大值、第二大值、第二小值和最小值这6种情况。常见的统计估计应该包括某些置信水平下的区间估计,比如估计武汉感染人数的95%区间,在本文中并没有做区间估计。由于武汉市的情况很特殊,也可能不属于省内和省外的两种分布,汇报区间估计的意义不大。直接采用4种极值比率来估计,这样能够看到极端情况下武汉市感染人数的估计值。

      表5给出了6种情况估计的武汉感染人数。表5的最后一列是每日公布的武汉市确诊人数。为了更好地理解估计结果,把估计值除以每日公布的确诊人数,得到估计值和公布确诊人数的比值,结果见表6表56的结果总结为以下3点。

      表 5  6种情况下武汉感染人数的估计

      城市时间均值中位数最大值第二大值第二小值最小值公布的确诊人数
      省内城市1月29日4 4834 0208 6658 1171 9711 2601 905
      1月30日6 1785 37311 71710 9183 3881 5752 261
      1月31日8 5727 86614 77013 4515 5441 8902 639
      2月1日10 8119 77417 93417 6115 9764 2533 215
      2月2日13 56511 79922 65422 5248 5795 5134 109
      2月3日16 08813 92927 01925 2079 9985 5135 142
      2月4日18 99317 11137 81529 02910 1726 9316 384
      2月5日21 68019 90241 65033 76011 1288 5068 351
      2月6日24 57525 09749 20136 14811 99810 08210 117
      2月7日27 12626 34753 98038 92214 17111 65711 618
      2月8日30 35231 15056 22143 12815 18812 60213 603
      2月9日31 53129 73558 05045 98316 23212 91714 982
      省外城市1月29日13 0408 97586 84926 6691 5787891 905
      1月30日17 19712 009131 03636 0811 5787892 261
      1月31日21 86215 791172 93744 4482 3687892 639
      2月1日25 38317 614183 60357 5613 9453 1563 215
      2月2日27 67518 829201 88666 3654 7345 5234 109
      2月3日29 48021 820221 69476 5225 5235 5235 142
      2月4日37 82326 038259 02491 0829 4687 8916 384
      2月5日41 27129 154277 30897 85413 4149 4698 351
      2月6日44 76532 104301 687106 31816 57011 83610 117
      2月7日48 35634 015320 733113 09018 22914 20311 618
      2月8日50 67436 915333 684118 84618 22914 20313 603
      2月9日53 24839 699341 303123 92518 68717 35914 982

      1) 按照确诊比率的最小值 (即最小比率)来估计。基于省内城市确诊比率最小值(即潜江市),估计武汉市受感染人数。除了前3日的估计人数低于确诊人数外,后面5日的估计人数都高于确诊人数。自2020年2月8日开始,武汉市确诊人数开始大于估计的感染人数。再按第二小值的比率估计,1月29日的估计值是1 971人,和确诊的1 905人较为接近。2月9日,根据第二小值(即恩施市)的确诊比率估计武汉市感染人数,估计值大约是确诊人数的1.1倍。

      从省外城市来看,按照确诊比率的最小值(即贵阳市)估计2020年2月1日武汉市的受感染人数,估计值和确诊人数持平。用第二小值(即洛阳市)估计,在2月1日的估计值已经开始大于确诊人数。按照省外城市确诊比率的最小值,即最乐观的估计,2月2日之后武汉市感染人数的估计值全部大于确诊人数。

      2) 按照省内城市的平均值估计,表5显示武汉在2020年1月29日−2月9日的感染人数分别是4 483人和31 531人。表6展示了比值的动态变化,由1月29日的2.4倍开始增加,到2月1日到达峰值即3.4倍,之后比值开始持续减少,2月9日的比值是2.1倍。

      在按照省外城市的平均值估计,从2020年1月29日−2月9日的感染人数分别是1.304 0万人和5.324 8万人。表6的比值随时间变化的动态特征和省内情况类似,从1月29日的6.8倍到1月31日达到峰值即8.3倍,比值从2月1日开始持续下降,到2月9日估计的感染人数是确诊人数的3.6倍。

      表 6  武汉感染人数的估计和公布确诊人数的比值

      城市时间均值中位数最大值第二大值第二小值最小值公布的确诊人数
      省内城市1月29日2.42.14.54.31.00.71.0
      1月30日2.72.45.24.81.50.71.0
      1月31日3.23.05.65.12.10.71.0
      2月1日3.43.05.65.51.91.31.0
      2月2日3.32.95.55.52.11.31.0
      2月3日3.12.75.34.91.91.11.0
      2月4日3.02.75.94.51.61.11.0
      2月5日2.62.45.04.01.31.01.0
      2月6日2.42.54.93.61.21.01.0
      2月7日2.32.34.63.41.21.01.0
      2月8日2.22.34.13.21.10.91.0
      2月9日2.12.03.93.11.10.91.0
      省外城市1月29日6.84.745.614.00.80.41.0
      1月30日7.65.358.016.00.70.31.0
      1月31日8.36.065.516.80.90.31.0
      2月1日7.95.557.117.91.21.01.0
      2月2日6.74.649.116.21.31.01.0
      2月3日5.74.243.113.61.11.01.0
      2月4日5.94.140.614.31.51.21.0
      2月5日4.93.533.211.71.61.11.0
      2月6日4.43.229.810.51.61.21.0
      2月7日4.22.927.69.71.61.21.0
      2月8日3.72.724.58.71.31.01.0
      2月9日3.62.622.88.31.21.21.0

      按中位数估计,省内城市的比值从1月31日的3倍减少到2月9日的2倍。利用省外城市估计的感染人数和确诊人数的比值,从1月29日的4.7倍增加到1月31日的6倍,再逐步减少到2月9日的2.6倍。

      3) 从感染确诊比率的最大值(即最大比率)来估计。按照省内城市的最大值(即十堰市和随州市)估计,从2020年1月29日−2月9日,估计的武汉感染人数是当日确诊人数的4.5倍和3.9倍,期间比值在2月4日达到最大的5.9倍。按照省内城市的第二大值(分别是荆门市和十堰市)来估计,1月29日和2月9日的估计值分别是0.811 7万人和4.598 3万人。武汉市估计的感染人数是确诊人数的4.3倍和3.1倍。

      按照省外城市的最大值(即温州市)估计,从2020年1月29日−2月9日,估计的感染人数和确诊人数比值从45.6倍(1月29日)增加到65.5倍(1月31日),再逐步减少到22.8倍(2月9日)。1月29日的估计值是8.685万人,2月9日的估计值是34.130万人。用省外城市的第二大值来估计,1月29日(杭州市)和2月9日(深圳市)的估计值分别是2.666 9万人和12.392 5万人,估计的感染人数分别是当日确诊人数的14倍和8.3倍。

      用省外城市的最大比率(即温州市)估计出武汉市的感染人数在2月9日是34.130万人,这个结果令人吃惊。追查从武汉回到温州的人数,温州市副市长在2020年1月29日采访中提到:“武汉‘封城’后,1月23日至27日5天,仍然有1.88万人从湖北特别是武汉到达温州,平均每天有3 600多人”。因此从武汉回到温州是3.04万人,大于百度迁徙数据计算的2020年1月10日至22日的1.16万人,回到温州的实际人数增加了1.6倍。假设温州的累计确诊人数是从3.04万人中得到的,那么估算武汉市感染人数大约为13.127万人(34.130万人/2.6),仍然高于由第二大值(即深圳市)确诊比率估计的12.393万人。调整后的估计感染人数与当日确诊人数的比值是8.7倍,高于第二大值的8.3倍。从表6看到,省外城市感染比率第二大的城市在1月29日是杭州。从2月1日之后就是深圳市。显然,从确诊率高的温州市和深圳市估计武汉市的感染人数,结果较为一致。

    • 由于研究样本较少,尤其是省内的15个样本属于小样本情形。对均值和中位数的估计可能会有一些影响。为此,采用Bootstrap方法[14]重新估计每日的均值和中位数。具体步骤为:

      1)在原始样本${p_{t,i}}$中有放回的抽样,得到N个样本$p_{t,i}^*$,其中省内样本$N = 15$,省外样本$N = 35$

      2)利用抽取的Bootstrap样本$p_{t,i}^*$,计算Bootstrap抽样下的均值统计量:

      $${{\rm {Mean}}^*} = \frac{1}{N}\sum\limits_{i = 1}^N {p_{t,i}^*} $$ (4)

      和中位数统计量:

      $${{\rm {Med}}^*} = p_{t,k}^*,{\rm{ }}k = {{[N}/{2] + 1}}$$ (5)

      其中$[a]$表示对$a$取整。

      3)重复第1)步和第2)步共B次,得到均值${\rm {Mean}}_1^*,{\rm {Mean}}_2^*, \cdots ,{\rm {Mean}}_B^*$和中位数${\rm {Med}}_1^*, {\rm {Med}}_2^*, \cdots ,$${\rm {Med}}_B^*$

      4)计算Bootstrap均值

      $${\overline {\rm {Mean}} ^*} = \frac{1}{B}\sum\limits_{b = 1}^B {{\rm {Mean}}_b^*} $$ (6)

      和Bootstrap中位数的平均:

      $${\overline {\rm {Med}} ^*} = \frac{1}{B}\sum\limits_{b = 1}^B {{\rm {Med}}_b^*} $$ (7)

      对湖北省内外城市的每日样本进行Bootstrap抽样B=10 000次,计算得到Bootstrap均值和中位数,结果见表7图1给出从2020年1月29日到2月9日每天的直方图。

      表 7  基于bootstrap抽样计算的省内外城市的均值和中位数

      时间省内城市省外城市
      均值中位数均值中位数
      1月29日0.5080.4611.4731.054
      1月30日0.6980.6551.9501.383
      1月31日0.9700.8922.4761.808
      2月1日1.2251.0932.8642.035
      2月2日1.5351.3533.2602.280
      2月3日1.8211.6613.7012.668
      2月4日2.1491.9574.2873.017
      2月5日2.4492.3084.6903.341
      2月6日2.7802.6785.1253.596
      2月7日3.0702.9535.4993.874
      2月8日3.4323.3975.7484.137
      2月9日3.5703.4626.0294.408

      表7的Bootstrap均值和中位数与表2的均值和中位数对比,二者数据非常接近,说明均值和中位数的结果是鲁棒的。

      图1的直方图反映了湖北省内城市和省外城市确诊比率在均值上的差异。直方图是经验分布的直观表现。图1表明省内外均值的差异是多方面的。省内确诊比率的均值始终小于省外均值,峰值高表明确诊比率在均值周围的频次非常高,表明省内城市的确诊比率非常集中,方差小同样表明确诊比率在均值周围变化小。省外城市确诊比率的特点是方差更大。

      图1的另一个重要特征是随着时间变化,省内城市的直方图和省外城市的直方图产生了交集,当时间增加,交集重合的部分越来越多。从表7看到,省内城市的均值以更快的速度增加,1月29日是0.508,2月9日是3.570,大约增加了6倍。省外城市的均值在1月29日是1.473,2月9日是6.029,大约增加了3倍。从表7还可以看到从1月29日到2月9日,省内城市的中位数增加了6.5倍,而省外城市的中位数增加了3.2倍。这表明随着湖北省内城市医疗条件的改善,确诊比率提高得越来越快,逐渐跟上省外城市的确诊趋势。只有当省内外的均值和中位数在统计检验上不再有显著差异时,省内外的疫情达到了相同的水平。

      图  1  基于10 000次Bootstrap抽样估计均值的直方图

    • 利用2020年1月10日−1月22日的百度迁徙数据,本文统计从武汉市到全国50个城市的迁移人数。同时,收集2020年1月29日−2月9日这12天内50个城市感染新型冠状病毒确诊人数的数据。首先,利用统计方法计算了感染新型冠状病毒人数占迁移人数的比率。其次,对省内外每天的确诊比率进行描述性统计,以及均值和中位数相等性检验。接下来,根据省内外的统计结果,对武汉市的感染人数进行估计。最后对均值和中位数进行了Bootstrap抽样计算,均值和中位数结果具有稳健性。本文研究得到以下结论。

      1) 通过对比发现,湖北省内城市确诊人数的均值和中位数都低于省外城市的均值和中位数。原因是疫情初期湖北省内的医疗资源不足,许多感染病人还未得到有效的诊断和治疗。潜在病人尚未被发现,这需要特别重视。随州、十堰、襄阳、宜昌市和荆门等城市,在样本期内的确诊比率处于15个省内城市的前两位。从均值检验来看,湖北省内城市和省外城市的差异是显著的。从中位数检验来看,湖北省内城市和省外城市的差异在2月7日发生了改变,不拒绝在10%水平上中位数相等的假设。这表明湖北省内城市感染者的确诊逐渐赶上省外城市确诊的速度。当省内和省外城市在均值检验也无显著差异时,才能认为省内外疫情状态达到同一个水平,疫情防控进入一个新的阶段。

      2) 从最近一天(2月9日)的情况来看,利用省内城市确诊比率的均值和中位数估计武汉市的感染人数,估计值是确诊人数的2.1倍和2倍。利用最大值和第二大值估计,感染人数是确诊人数的3.9倍和3.1倍。利用省外城市的均值和中位数估计武汉市的感染人数,估计值是确诊人数的3.6倍和2.6倍。用最大值和第二大值估计的武汉市感染人数,是确诊人数的8.7倍(修正后)和8.3倍。这些结果无不说明武汉市内有很多潜在的感染患者尚未得到诊断。根据通报信息,武汉市前期已经征用和开辟了9 000张床位,雷神山医院的1 000~1 500张床位,火神山医院的700~1 000张床位。2月4日武汉市征用11家场馆改造成“方舱医院”,改造完成后,可提供万余张床位。这些床位数量加在一起仍然小于估计的感染人数。

      3) 利用Bootstrap方法重新估计湖北省内外城市确诊比率的均值和中位数。稳健性的结论进一步支持对武汉市感染患者的预测结果。

    • 首先,由于作者不具备医学方面的专业知识,无法从传染病模型、病毒潜伏期、基本再生数及感染传播机制等方面进行分析。本文的假设也忽略了病毒二代传播在不同地方的差异性,这些差异性对估计结果会有一定的影响,使得估计值和实际感染人数有一定偏差。

      其次,基础数据的准确性会影响估计结果。由于研究数据是根据网络上百度迁移数据整理得到,而实际情况更复杂,整理的数据与实际数据有差异。50个城市迁徙人员的基数变小使得计算的确诊率偏高,导致武汉感染人数的估计值也偏高。

      最后,文中没有考虑50个城市每日增加确诊人数的动态特征,利用面板分析方法研究动态数据会得到新的启示,比如判断疫情拐点的出现。利用更多的数据信息,更复杂的统计和大数据研究方法,研究结论将会更丰富。

参考文献 (14)

目录

    /

    返回文章
    返回