留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

百度迁徙规模指数构造方法反演

王聪 严洁

王聪, 严洁. 百度迁徙规模指数构造方法反演[J]. 电子科技大学学报, 2021, 50(4): 616-626. doi: 10.12178/1001-0548.2020441
引用本文: 王聪, 严洁. 百度迁徙规模指数构造方法反演[J]. 电子科技大学学报, 2021, 50(4): 616-626. doi: 10.12178/1001-0548.2020441
WANG Cong, YAN Jie. An Inversion of the Constitution of the Baidu Migration Scale Index[J]. Journal of University of Electronic Science and Technology of China, 2021, 50(4): 616-626. doi: 10.12178/1001-0548.2020441
Citation: WANG Cong, YAN Jie. An Inversion of the Constitution of the Baidu Migration Scale Index[J]. Journal of University of Electronic Science and Technology of China, 2021, 50(4): 616-626. doi: 10.12178/1001-0548.2020441

百度迁徙规模指数构造方法反演

doi: 10.12178/1001-0548.2020441
基金项目: 国家自然科学基金(61602331)
详细信息
    作者简介:

    王聪(1981 − ),男,博士,副教授,主要从事交通流模拟、复杂系统与复杂性科学方面的研究

    通讯作者: 严洁,E-mail:yan_jie@foxmail.com
  • 中图分类号: TP393; C922; O211.9

An Inversion of the Constitution of the Baidu Migration Scale Index

  • 摘要: 百度提供了迁徙规模指数以反映迁入或迁出某一特定地域的人口规模,成为经济地理科学与流行病学的重要研究依据。然而该指数仅为一个无量纲数,其构造方法目前尚未公开。该文将此指数假定为实际迁徙人口的可微函数映射,利用迁徙数据中的一个内蕴等式,反演出实际迁徙人口与该指数满足简单正比关系y=kx。通过迁徙人口的离散特征和费马−欧拉定理推导得到迁徙人口的高概率互质特性,结合真实数据进行参数估计,得到线性关系的比例系数k为3.24×10−5。在全部数据记录上考察了内蕴等式的可信程度:当考虑舍入误差时,93.81%的市际迁徙记录、82.65%的市−省迁徙记录和84.87%的省际迁徙记录完全支持内蕴等式;其余违例记录的误差峰值为357人,对应相对误差约0.5%,轻微的违例程度显示这种线性映射模型是自洽的。
  • 图  1  迁徙规模指数取值级差

    图  2  市际迁徙流量校验

    图  3  市−省迁徙流量校验

    图  4  省际迁徙流量校验

    表  1  人口迁徙百分比

    日期迁徙类型地域迁入/迁出地百分比/%
    20200101move_in北京市上海市1.62
    $\cdots$$\cdots $$\cdots $$\cdots $$\cdots $
    20200101move_in保定市湖北省0.42
    下载: 导出CSV

    表  2  特定日期迁徙规模指数列表

    日期迁徙类型地域
    20200101move_in天津市2.480 868
    $\cdots $$\cdots $$\cdots $$\cdots $
    20200101move_out茂名市0.739 951 2
    下载: 导出CSV

    表  3  宁夏所辖区划2020年1月1日迁徙规模指数统计

    迁徙方向行政区划迁徙规模指数
    move_in银川0.877 521 6
    move_out银川0.911 898
    move_in石嘴山0.250 030 8
    move_out石嘴山0.248 054 4
    move_in吴忠0.487 684 8
    move_out吴忠0.473 688
    move_in固原0.206 712
    move_out固原0.200 005 2
    move_in中卫0.286 578
    move_out中卫0.270 637 2
    下载: 导出CSV

    表  4  宁夏所辖区划2020年1月1日迁入百分比统计 %

    行政区划迁入
    银川石嘴山吴忠固原中卫
    银川018.1331.066.7810.00
    石嘴山63.1904.252.522.28
    吴忠59.922.0504.2612.98
    固原33.773.2910.17019.04
    中卫34.332.0121.9214.650
    下载: 导出CSV

    表  5  宁夏所辖区划2020年1月1日迁出百分比统计 %

    行政区划迁出
    银川石嘴山吴忠固原中卫
    银川017.3232.047.6510.79
    石嘴山64.1704.042.742.32
    吴忠57.552.2404.4313.26
    固原29.753.1510.40020.99
    中卫32.442.1023.3914.540
    下载: 导出CSV

    表  6  宁夏所辖区划2020年1月1日迁徙指数相对误差统计 %

    行政区划银川石嘴山吴忠固原中卫
    银川0.030.020.070.01
    石嘴山0.050.240.060.09
    吴忠0.020.150.180.01
    固原0.010.010.120.01
    中卫0.050.300.000.02
    下载: 导出CSV

    表  7  迁徙规模指数尾数统计

    末位尾数频数末位尾数频数
    019 22850
    10618 981
    219 15170
    30819 196
    419 03490
    下载: 导出CSV

    表  8  迁徙规模指数数据访问必要参数

    参数取值范围意义
    dtcity, province, country行政区划级别
    idGB/T2260-2007[32]行政区划代码
    typemove_in, move_out迁徙方向
    下载: 导出CSV

    表  9  迁徙百分比数据访问必要参数

    参数取值范围意义
    dtcity, province, country行政区划级别
    idGB/T2260-2007行政区划代码
    typemove_in, move_out迁徙方向
    date20200110~20200315数据统计日期
    下载: 导出CSV

    表  10  污染数据与真实数据对比示例

    位次污染数据真实数据
    区划百分比/%区划百分比/%
    1重庆市1.56乐东黎族自治县10.77
    2成都市1.36陵水黎族自治县7.55
    3广州市1.25海口市6.74
    $\cdots $$\cdots $$\cdots $$\cdots $$\cdots $
    *注:不同爬取节点的污染数据可能有差异。
    下载: 导出CSV
  • [1] Baidu. com. 全国迁徙详情——百度地图迁徙大数据[EB/OL]. [2020-5-02]. https://qianxi.baidu.com/.
    [2] JIANG Jun-feng, LUO Li-sha. Influence of population mobility on the Novel Coronavirus Disease (COVID-19) epidemic: Based on panel data from Hubei, China[J]. Global Health Research and Policy, 2020, 5(1): 30. doi:  10.1186/s41256-020-00151-6
    [3] XU Shun-qing, LI Yuan-yuan. Beware of the second wave of COVID-19[J]. Lancet, 2020, 395(10233): 1321-1322. doi:  10.1016/S0140-6736(20)30845-X
    [4] OLIVER N, LEPRI B, STERLY H, et al. Mobile phone data for informing public health actions across the COVID-19 pandemic life cycle[J]. Science Advances, 2020, 6(23): eabc0764.1-eabc0764.6.
    [5] DIRK B, DIRK H. The hidden geometry of complex, network-driven contagion phenomena[J]. Science, 2013, 342(6164): 1337-1342. doi:  10.1126/science.1245200
    [6] LI Qun, MED M, GUAN Xu-hua, et al. Early transmission dynamics in Wuhan, China of novel coronavirus-infected pneumonia[J]. The New England Journal of Medicine, 2020, 382(13): 1199-1207. doi:  10.1056/NEJMoa2001316
    [7] 叶强, 张俪璇, 彭鹏, 等. 基于百度迁徙数据的长江中游城市群网络特征研究[J]. 经济地理, 2017, 37(8): 53-59.

    YE Qiang, ZHANG Li-xuan, PENG Peng, et al. The network characteristics of urban agglomerations in the middle reaches of the Yangtze river based on Baidu migration data[J]. Economic Geography, 2017, 37(8): 53-59.
    [8] 徐腾, 姚洋. 城际人口迁移与房价变动——基于人口普查与百度迁徙数据的实证研究[J]. 江西财经大学学报, 2018(1): 11-19.

    XU Teng, YAO Yang. Urban population migration and housing price fluctuation: An empirical research based on the census data and baidu migration data[J]. Journal of Jiangxi University of Finance and Economics, 2018(1): 11-19.
    [9] 蒋小荣, 汪胜兰, 杨永春. 中国城市人口流动网络研究——基于百度LBS大数据分析[J]. 人口与发展, 2017, 23(1): 13-23. doi:  10.3969/j.issn.1674-1668.2017.01.002

    JIANG Xiao-rong, WANG Sheng-lan, YANG Yong-chun. Research on China's urban population mobility network based on Baidu LBS big data[J]. Population and Development, 2017, 23(1): 13-23. doi:  10.3969/j.issn.1674-1668.2017.01.002
    [10] 许小可, 文成, 张光耀, 等. 新冠肺炎爆发前期武汉外流人口的地理去向分布及影响[J]. 电子科技大学学报, 2020, 49(3): 324-329. doi:  10.12178/1001-0548.2020033

    XU Xiao-ke, WEN Cheng, ZHANG Guang-yao, et al. The geographical destination distribution and effect of outflow population of Wuhan when the outbreak of COVID-19[J]. Journal of the University of Electronic Science and Technology of China, 2020, 49(3): 324-329. doi:  10.12178/1001-0548.2020033
    [11] 李冀鹏, 洪峰, 白薇, 等. 评估新型冠状病毒地区防控效果的一种近似方法[J]. 物理学报, 2020, 69(10): 99-106.

    LI Ji-peng, HONG Feng, BAI Wei, et al. Approximate method to evaluate the regional control efficacy of COVID-19[J]. Acta Physica Sinica, 2020, 69(10): 99-106.
    [12] TIAN Huai-yu, LIU Yong-hong, LI Yi-dan, et al. An investigation of transmission control measures during the first 50 days of the COVID-19 epidemic in China[J]. Science, 2020, 368(6491): 638-642. doi:  10.1126/science.abb6105
    [13] LAI Sheng-jie, RUKTANONCHAI W, ZHOU Liang-cai, et al. Effect of non-pharmaceutical interventions to contain COVID-19 in China[J]. Nature, 2020, 585(7825): 410-413. doi:  10.1038/s41586-020-2293-x
    [14] KRAEMER M, YANG Chia-Hung, GUTIERREZ B, et al. The effect of human mobility and control measures on the COVID-19 epidemic in China[J]. Science, 2020, 368(6490): 493-497. doi:  10.1126/science.abb4218
    [15] SONG Hai-tao, LI Feng, JIA Zhong-wei, et al. Using traveller-derived cases in Henan province to quantify the spread of COVID-19 in Wuhan, China[J]. Nonlinear Dynamics, 2020, 101(3): 1-11.
    [16] YANG Zi-feng, ZENG Zhi-qi, WANG Ke, et al. Modified SEIR and AI prediction of the epidemics trend of COVID-19 in China under public health interventions[J]. Journal of Thoracic Disease, 2020, 12(3): 165-174. doi:  10.21037/jtd.2020.02.64
    [17] 李钢, 王皎贝, 徐婷婷, 等. 中国COVID-19疫情时空演化与综合防控[J]. 地理学报, 2020, 75(11): 2475-2489. doi:  10.11821/dlxb202011015

    LI Gang, WANG Jiao-bei, XU Ting-ting, et al. Spatio-Temporal evolution process and integrated measures for prevention and control of COVID-19 epidemic in China[J]. Acta Geographica Sinica, 2020, 75(11): 2475-2489. doi:  10.11821/dlxb202011015
    [18] 童昀, 马勇, 刘海猛. COVID-19疫情对中国城市人口迁徙的短期影响及城市恢复力评价[J]. 地理学报, 2020, 75(11): 2505-2520. doi:  10.11821/dlxb202011017

    TONG Yun, MA Yong, LIU Hai-meng. The short-term impact of COVID-19 epidemic on the migration of Chinese urban population and the evaluation of Chinese urban resilience[J]. Acta Geographica Sinica, 2020, 75(11): 2505-2520. doi:  10.11821/dlxb202011017
    [19] 王聪, 严洁, 王旭, 等. 新型冠状病毒肺炎早期时空传播特征分析[J]. 物理学报, 2020, 69(8): 080701-1-080701-10.

    WANG Cong, YAN Jie, WANG Xu, et al. Analysis on early spatiotemporal transmission characteristics of COVID-19[J]. Acta Physica Sinica, 2020, 69(8): 080701-1-080701-10.
    [20] ZHANG Cheng, QIAN Li-xian, HU Jian-qiang. COVID-19 pandemic with human mobility across countries[J]. Journal of the Operations Research Society of China, 2021(9): 229-244.
    [21] BADR H, DU Hong-ru, MARSHALL M, et al. Association between mobility patterns and COVID-19 transmission in the USA: A mathematical modelling study[J]. Lancet Infectious Diseases, 2020, 20(11): 1247-1254. doi:  10.1016/S1473-3099(20)30553-3
    [22] HOLTZ D, ZHAO M, BENZELL S, et al. Interdependence and the cost of uncoordinated responses to COVID-19[J]. Proceedings of the National Academy of Sciences of the United States of America, 2020, 117(33): 19837-19843. doi:  10.1073/pnas.2009522117
    [23] ALETA A, MARTIN-CORRAL D, PIONTTI A, et al. Modelling the impact of testing, contact tracing and household quarantine on second waves of COVID-19[J]. Nature Human Behaviour, 2020, 4(9): 964-971. doi:  10.1038/s41562-020-0931-9
    [24] GATTO M, BERTUZZO E, MARI L, et al. Spread and dynamics of the COVID-19 epidemic in Italy: Effects of emergency containment measures[J]. Proceedings of the National Academy of Sciences of the United States of America, 2020, 117(19): 10484-10491. doi:  10.1073/pnas.2004978117
    [25] BONACCORSI G, PIERRI F, CINELLI M, et al. Economic and social consequences of human mobility restrictions under COVID-19[J]. Proceedings of the National Academy of Sciences of the United States of America, 2020, 117(27): 15530-15535. doi:  10.1073/pnas.2007658117
    [26] CANDIDO D, CLARO I, JESUS J, et al. Evolution and epidemic spread of SARS-CoV-2 in Brazil[J]. Science, 2020, 369(6508): 1255-1260. doi:  10.1126/science.abd2161
    [27] PEIXOTO P, MARCONDES D, PEIXOTO C, et al. Modeling future spread of infections via mobile geolocation data and population dynamics an application to COVID-19 in Brazil[J]. PLOS ONE, 2020, 15(7): e0235732. doi:  10.1371/journal.pone.0235732
    [28] JEFFREY B, WALTERS C, AINSLIE K, et al. Anonymised and aggregated crowd level mobility data from mobile phones suggests that initial compliance with COVID-19 social distancing interventions was high and geographically consistent across the UK[J]. Wellcome Open Research, 2020, 5(5): 170.
    [29] SAHA J, BARMAN B, CHOUHAN P. Lockdown for COVID-19 and its impact on community mobility in India: An analysis of the COVID-19 community mobility reports, 2020[J]. Children and Youth Services Review, 2020, 116(116): 105160.
    [30] BROCKMANN D, HUFNAGEL L, GEISEL T. The scaling laws of human travel[J]. Nature, 2006, 439: 462-465. doi:  10.1038/nature04292
    [31] GONZÁLEZ M C, HIDALGO C A, BARABÁSI A L. Understanding individual human mobility patterns[J]. Nature, 2008, 453: 779-782. doi:  10.1038/nature06958
    [32] JIANG B, YIN J J, ZHAO S J. Characterizing the human mobility pattern in a large street network[J]. Physical Review E, 2009, 80: 021136. doi:  10.1103/PhysRevE.80.021136
    [33] 闫小勇. 人类个体出行行为的统计实证[J]. 电子科技大学学报, 2011, 40(2): 168-173. doi:  10.3969/j.issn.1001-0548.2011.02.002

    YAN Xiao-yong. Empirical statistics on individual human travel behavior[J]. Journal of the University of Electronic Science and Technology of China, 2011, 40(2): 168-173. doi:  10.3969/j.issn.1001-0548.2011.02.002
    [34] 潘承洞, 潘承彪. 初等数论[M]. 第二版. 北京: 北京大学出版社, 2002.

    PAN Cheng-dong, PAN Cheng-biao. Elementary number theory[M]. The 2nd edition. Beijing: Peking University Press, 2002.
    [35] 全国信息分类与编码标准化技术委员会. 中华人民共和国行政区划代码: GB/T2260-2007[S]. 中华人民共和国国家质量监督检验检疫总局, 中国国家标准化管理委员会. 北京: 中国标准出版社, 2007.

    Information Classifying and Coding. Codes for the Administrative Divisions of the People's Republic of China: GB/T2260-2007[S]. General Administration of Quality Supervision, Inspection and Quarantine of the People's Republic of China, Standardization Administration of the People's Republic of China. Beijing: Standards Press of China, 2007.
  • [1] 李自强, 李睿, 孙抗.  基于时序拓扑数据分析的电力电缆局部放电模式识别 . 电子科技大学学报, 2024, 53(): 1-7. doi: 10.12178/1001-0548.2022398
    [2] 邱丹阳, 韩筱璞.  城市的经济与人口对大众心目中的高校排名影响研究 . 电子科技大学学报, 2023, 52(5): 789-799. doi: 10.12178/1001-0548.2022157
    [3] 杨晨, 文成, 许小可.  新冠肺炎疫情对民族地区人口流动的影响 . 电子科技大学学报, 2021, 50(6): 938-946. doi: 10.12178/1001-0548.2021147
    [4] 杨政, 原子霞, 贾祖瑶.  基于迁徙数据估计武汉感染新型冠状病毒的人员数量 . 电子科技大学学报, 2020, 49(3): 330-338. doi: 10.12178/1001-0548.2020030
    [5] 许小可, 文成, 张光耀, 孙皓宸, 刘波, 王贤文.  新冠肺炎爆发前期武汉外流人口的地理去向分布及影响 . 电子科技大学学报, 2020, 49(3): 324-329. doi: 10.12178/1001-0548.2020033
    [6] 曹晖, 张秦正.  基于FSL数据集的去重性能分析 . 电子科技大学学报, 2018, 47(4): 621-625. doi: 10.3969/j.issn.1001-0548.2018.04.023
    [7] 王璞, 熊雨沙, 王骋程, 郑治豪, 鲁恒宇.  基于路径旅行时间分析的交通异常检测方法 . 电子科技大学学报, 2018, 47(6): 869-875. doi: 10.3969/j.issn.1001-0548.2018.06.011
    [8] 徐仲之, 曲迎春, 孙黎, 王璞.  基于手机数据的城市人口分布感知 . 电子科技大学学报, 2017, 46(1): 126-132. doi: 10.3969/j.issn.1001-0548.2017.01.018
    [9] 王艳军, 刘银鑫.  空中交通管制专家与新手眼动行为的统计分析研究 . 电子科技大学学报, 2017, 46(4): 614-620. doi: 10.3969/j.issn.1001-0548.2017.04.022
    [10] 刘张, 李坚, 王超, 蔡世民, 唐明, 黄琦.  基于复杂城市道路网络的交通拥堵预测模型 . 电子科技大学学报, 2016, 45(1): 17-25. doi: 10.3969/j.issn.1001-0548.2016.01.002
    [11] 宋竹, 秦志光, 罗嘉庆, 张悦涵.  电信数据中用户行为特征测量与分析 . 电子科技大学学报, 2015, 44(6): 934-939. doi: 10.3969/j.issn.1001-0548.2015.06.024
    [12] 周世杰, 宋竹, 罗嘉庆.  微观交通仿真的安全换道模型研究 . 电子科技大学学报, 2015, 44(5): 725-730. doi: 10.3969/j.issn.1001-0548.2015.05.015
    [13] 王亦雷, 嵇智源, 夏勇, 秦臻, 程红蓉.  移动用户人口统计信息预测 . 电子科技大学学报, 2015, 44(6): 917-920. doi: 10.3969/j.issn.1001-0548.2015.06.021
    [14] 王璞, 黄智仁, 龚航.  大数据时代的交通工程 . 电子科技大学学报, 2013, 42(6): 806-816. doi: 10.3969/j.issn.1001-0548.2013.06.002
    [15] 高嵘, 王强, 罗东, 秦志光.  食品溯源时序数据的函数型聚类分析 . 电子科技大学学报, 2012, 41(4): 561-563,591. doi: 10.3969/j.issn.1001-0548.2012.04.016
    [16] 张萍, 魏平, 于鸿洋, 费春.  基于混沌的生物地理分布优化算法 . 电子科技大学学报, 2012, 41(1): 65-69. doi: 10.3969/j.issn.1001-0548.2012.01.013
    [17] 周力, 唐诗忠.  城市交通干线智能线控系统研究 . 电子科技大学学报, 2007, 36(4): 744-747.
    [18] 张鹏, 张靖, 刘玉增, 唐雪飞.  粗集在交通事故黑点成因分析中的应用 . 电子科技大学学报, 2007, 36(2): 267-270.
    [19] 文琪, 彭宏.  小波变换的离群时序数据挖掘分析 . 电子科技大学学报, 2005, 34(4): 556-558.
    [20] 戴志坚, 师奕兵, 王厚军.  逻辑分析仪高速数据采集及数据窗口定位 . 电子科技大学学报, 2002, 31(2): 176-179.
  • 加载中
图(4) / 表(10)
计量
  • 文章访问数:  7030
  • HTML全文浏览量:  2235
  • PDF下载量:  98
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-12-21
  • 修回日期:  2021-04-06
  • 网络出版日期:  2021-07-23
  • 刊出日期:  2021-06-28

百度迁徙规模指数构造方法反演

doi: 10.12178/1001-0548.2020441
    基金项目:  国家自然科学基金(61602331)
    作者简介:

    王聪(1981 − ),男,博士,副教授,主要从事交通流模拟、复杂系统与复杂性科学方面的研究

    通讯作者: 严洁,E-mail:yan_jie@foxmail.com
  • 中图分类号: TP393; C922; O211.9

摘要: 百度提供了迁徙规模指数以反映迁入或迁出某一特定地域的人口规模,成为经济地理科学与流行病学的重要研究依据。然而该指数仅为一个无量纲数,其构造方法目前尚未公开。该文将此指数假定为实际迁徙人口的可微函数映射,利用迁徙数据中的一个内蕴等式,反演出实际迁徙人口与该指数满足简单正比关系y=kx。通过迁徙人口的离散特征和费马−欧拉定理推导得到迁徙人口的高概率互质特性,结合真实数据进行参数估计,得到线性关系的比例系数k为3.24×10−5。在全部数据记录上考察了内蕴等式的可信程度:当考虑舍入误差时,93.81%的市际迁徙记录、82.65%的市−省迁徙记录和84.87%的省际迁徙记录完全支持内蕴等式;其余违例记录的误差峰值为357人,对应相对误差约0.5%,轻微的违例程度显示这种线性映射模型是自洽的。

English Abstract

王聪, 严洁. 百度迁徙规模指数构造方法反演[J]. 电子科技大学学报, 2021, 50(4): 616-626. doi: 10.12178/1001-0548.2020441
引用本文: 王聪, 严洁. 百度迁徙规模指数构造方法反演[J]. 电子科技大学学报, 2021, 50(4): 616-626. doi: 10.12178/1001-0548.2020441
WANG Cong, YAN Jie. An Inversion of the Constitution of the Baidu Migration Scale Index[J]. Journal of University of Electronic Science and Technology of China, 2021, 50(4): 616-626. doi: 10.12178/1001-0548.2020441
Citation: WANG Cong, YAN Jie. An Inversion of the Constitution of the Baidu Migration Scale Index[J]. Journal of University of Electronic Science and Technology of China, 2021, 50(4): 616-626. doi: 10.12178/1001-0548.2020441
  • 作为分析人口迁徙规律的重要工具,百度迁徙网站[1]提供了城市和省区间迁徙的人口比例和总体迁移规模估计,为COVID-19疫情防控提供了重要参考。然而,百度迁徙规模指数作为一个无量纲数,其构造方法并未公开,仅能从有限的信息推知该指数与实际迁徙人口可能存在正相关特征。目前国际疫情防控形势仍不乐观,输入性疫情在国内仍时有局部性传播。考虑到人类迁徙行为是COVID-19迅速传播的主要驱动力[2],从防范疫情全国性二次蔓延的立场出发[3],分析百度迁徙的数据构造方法及与真实人类迁徙行为的对应关系,从中反推出迁徙行为的确切人数,可以为研究总结疫情防控规律提供有益参考。

    来自移动通信网络的数据是公共卫生管理的重要研判依据[4]。文献[5]利用复杂网络理论拟合人类迁徙与流行病学传播的关系,发现相对于节点间的经纬度距离,疫情传播与节点的等效距离相关性更强,而节点间的人类迁徙流量是等效距离的核心构成部分。因此,在COVID-19疫情爆发初期,考虑人类迁徙特征的流行病传播研究就得到了广泛关注。文献[6]利用城市间航空流量数据和腾讯人类迁徙数据,以种群传播模型进行建模。由于航空并非中国大陆出行的首选工具,该研究对疫情初期传播过程的解释能力存在缺陷。曾在区域经济学[7]、城市经济学[8]和人口地理学[9]等领域得到应用的百度迁徙网站也已重新开放,公开了百度依托移动互联网采集的全国300余个地级市和30余个省(直辖市,自治区)的人类迁徙状况。百度迁徙网站的数据陆续更新至2020年5月初,并保留1月10日−3月15日的数据以供参考。文献[10]利用百度迁徙的数据初步调查了湖北省外部分城市迁入人口与疫情数据的关系,然而该分析仅局限于百度标注的流量较大的50个城市,相对于全国300余个地级市而言,覆盖面有所欠缺。文献[11]从百度迁徙数据中发现,各地累积确诊量和自武汉流入的人口总数高度相关,且次生传播链基本被斩断,因此提出了一种考虑输入病例和地区人口效应的定量化评估新型冠状病毒地区防控效果的近似方法。文献[12]利用百度迁徙的数据,对国内前50天疫情管控措施的有效性进行了细致分析,评估了旅行限制和社会疏导措施在防止传染病传播方面的效果。文献[13]以百度迁徙数据为依据,分析了限制城际人口流动,筛查/诊断/隔离/疑似密切接触者,以及社交隔离与个人安全防护等非医学干预手段的效果。该研究指出,此类措施在付出高昂经济代价的同时,可能使得患病人数减少了67倍。文献[14]使用了百度迁徙公布的包括武汉市历史与实时人口流动数据,以说明病例输入在疫情城际传播中的作用,并评估了防控措施的效率。文献[15]则使用从百度迁徙数据中提取出武汉到河南的记录,将河南省的输入性病例视为对武汉市的无偏抽样,以此估算出COVID-19在武汉的传播情况。文献[16]利用百度迁徙的数据,结合我国疾控中心的每日确诊病例数据训练SEIR模型,参考SARS的部分流行特征,利用LSTM神经网络预测了COVID-19疫情在国内的峰值和演化趋势。文献[17]利用2020年1月10日−23日的百度迁徙数据分析了中国大陆的疫情空间格局特征,指出在省域层面疫情严重程度主要受邻近特征与人口迁徙强度的影响。文献[18]利用百度迁徙数据分析了疫情对中国城市人口迁徙的影响和城市的恢复能力。以上工作存在的一个共同问题是将百度迁徙规模指数假定为每日铁路、公路和航空人口流量的近似拟合,而这一假设目前并没有明确的依据。因此,本文前期工作[19]利用公开新闻报道中的春运数据,证实了迁徙规模指数与实际迁徙人数呈粗略线性关系,并给出了一个线性系数的大致估计,以此为依据分析了COVID-19在早期的时空传播特征。

    随着疫情在全世界的蔓延,部分研究人员也利用人类迁徙数据研究疫情在国外的传播与控制。文献[20]使用了包含547 166次航班,总计101 455 913名乘客的人类迁徙数据集,分析了遍及六大洲22个国家的人口迁徙与疫情流行状况的潜在关联性,并建议在限制高感染地区人口流动的同时,亦应对全球范围内的人口迁徙进行必要管控。涉及具体国家和地区的人口迁徙与疫情防控研究也普遍展开。文献[21]使用了由Teralytics提供的2020年1月1日−4月20日匿名手机漫游数据捕获美国每个县的实时移动趋势,利用这些数据来生成社交隔离评价指标,并结合流行病学数据来探索COVID-19的疫情增长规律;文献[22]利用超过2 700万个移动设备的漫游记录,结合社交网站公开的数据,估计了美国不同区域社交隔离政策造成的地理和社会网络溢出效应;文献[23]将移动迁徙数据与人口普查统计数据相结合,建立了COVID-19在波士顿市区的精细传播模型。文献[24]利用一个包含意大利107个大区的人类迁徙网络数据集估计了改进SEIR传播模型的参数后指出,对人类迁徙与社交隔离的有效限制已将该国疫情严重程度降低了45%。文献[25]利用社交网站提供的近似实时的意大利人口迁徙数据进行了大规模分析,以研究交通管制策略对个人和地方政府经济状况的影响;文献[26]则关注了另一个疫情严重的国家巴西:通过航空数据的分析显示,约76%的巴西毒株可能在2020年2月22日−3月11日期间自欧洲传入,并主要在本地和本州内传播。此后尽管航空旅行人数急剧下降,但大型城市的输出效应不容忽视,当前该国的干预措施仍不足以控制疫情传播。文献[27]利用巴西数百万匿名移动漫游数据分析了COVID-19在巴西各州内最可能的传播方式,为公共管理计划制定与资源分配提供了参考。人类迁徙数据同样被应用于英国[28]和印度[29]等国家的疫情防控研究。

    概览近期文献和成果,百度迁徙提供的数据已成为COVID-19疫情传播研究的核心数据来源之一。然而可能出于商业原因,百度迁徙提供的反映迁徙人口绝对规模的指数仅为无量纲数,公开的信息仅能表明该指数的构成与人口迁徙量正相关,仅能回答如“区域A的在某日的迁徙规模指数相对于区域B高约1.25”,该指数代表的物理意义不够明确,对于迁徙人口的绝对数量刻画存在缺陷。考虑到流行病学模型对参量的敏感性,这一概要性质的表述限制了相关研究的可靠性。因此,有两个问题是不得不回答的:1) 百度迁徙的数据与真实人类迁徙流量满足什么映射关系?2) 如何从百度迁徙数据反推出真实的人口迁徙流量?

    为了解答这两个问题,本文首先概要阐述了百度迁徙的数据来源与获取,然后以一个具体行政区划为例,挖掘了百度迁徙数据中内蕴的一个恒等关系。在此基础上,从理论上反演了实际迁徙人口和百度迁徙指数的函数表达式。基于费马 − 欧拉定理(Fermat-Euler theorem)证明得到了真实迁徙人数的高概率互质特征,以此为基础对映射函数的参数进行了有效估计,最终得到了一个自洽的线性函数映射模型。真实数据集上对内蕴恒等式的验证结果支持了该模型的有效性。

    • 百度慧眼是百度推出的一个商业地理智能数据平台。作为商业数据中面向公众开放的部分,百度迁徙网站展示了中国大陆省市两级全部行政区划的迁入/迁出迁徙规模指数以及与上一年度同一时间节点的对比,并针对每个行政区划,分别按照地市级和省级级别提供了最热门的100个迁入来源区划和迁出目的区划,以及迁自/迁入对应区划的人口百分比。其迁徙边界定义为某一区划的行政管理地域,包括该行政区划所管辖的所有下级区划。

      百度迁徙数据总体可以分为两部分:迁徙规模指数和热门迁徙区划的迁徙人口百分比。百度将这两个参量解释为:1) 迁徙规模指数:反映迁入或迁出人口规模,城市间可横向对比;2) 热门迁入/迁出地比例:迁入/迁出到某城市的人口与全国迁入/迁出总人口的比值。

      典型的百度迁徙数据的核心内容可以整理如表1表2所示。

      表 1  人口迁徙百分比

      日期迁徙类型地域迁入/迁出地百分比/%
      20200101move_in北京市上海市1.62
      $\cdots$$\cdots $$\cdots $$\cdots $$\cdots $
      20200101move_in保定市湖北省0.42

      表 2  特定日期迁徙规模指数列表

      日期迁徙类型地域
      20200101move_in天津市2.480 868
      $\cdots $$\cdots $$\cdots $$\cdots $
      20200101move_out茂名市0.739 951 2

      其中,表1的核心数据是特定区划迁徙人口的百分比。如表1的第一条目可解读为:2020年1月1日自上海市迁入北京市的人口占北京市总体迁入人口的1.62%;表2的值项是指定区划和指定方向的迁徙指数。如表2的第一条目表明,天津市在2020年1月1日的迁入规模指数为2.480 868。

    • 在时刻$t$,定义行政区划$i$的迁入规模指数为$\mathop M\nolimits_{i \leftarrow }^t $,区划$j$迁入$i$的人数占$i$总体迁入人数的百分比为$P_{i \leftarrow j}^t$;定义迁出规模指数为$\mathop M\nolimits_{i \to }^t $;定义$i$迁向区划$j$的人数占总体迁出人数百分比为$P_{i \to j}^t$。定义区划$i$在时刻$i$的总体迁入人数为$H_{i \leftarrow }^t$,总体迁出人数为$H_{i \to }^t$,这两个参量为非负整数。

      迁徙数据的重要核心部分是迁徙人数和流向。从表1表2可知,迁徙流向可以通过百分比直接获得,而迁徙人数$H_{i \leftarrow }^t$$H_{i \to }^t$是未知量,仅能通过迁徙规模指数推测。简化问题起见,假定不同日期,不同方向和不同区划的迁徙规模指数与迁徙人数间的函数映射方法相同,且该函数映射可用可微函数表达。显然有:

      $$ \tag{1.a} \mathop M\nolimits_{i \leftarrow }^t \propto \mathop H\nolimits_{i \leftarrow }^t $$ (1.a)
      $$\tag{1.b} \mathop M\nolimits_{i \to }^t \propto \mathop H\nolimits_{i \to }^t $$ (1.b)

      即迁徙规模指数与实际迁徙人数正相关。将迁徙规模指数的构造方法定义为真实迁徙人数的函数:

      $$\tag{2.a} \mathop M\nolimits_{i \leftarrow }^t = f( {\mathop H\nolimits_{i \leftarrow }^t } )$$ (2.a)
      $$\tag{2.b} \mathop M\nolimits_{i \to }^t = f( {\mathop H\nolimits_{i \to }^t } )$$ (2.b)

      于是构造方法反演问题可以定义为以上函数的反函数求解,即给定任一方向的迁徙规模指数$\mathop M\nolimits_{i*}^t $,求${f^{ - 1}}\left( \cdot \right)$,使得对应方向的迁徙人口$\mathop H\nolimits_{i*}^t $和迁徙指数满足:

      $$\mathop H\nolimits_{i*}^t = {f^{ - 1}}( {\mathop M\nolimits_{i*}^t })$$ (3)

      对于任意行政区划对$\left\langle {\alpha ,\beta } \right\rangle $,显然有:

      $$P_{\alpha \to \beta }^tH_{\alpha \to }^t = P_{\beta \leftarrow \alpha }^tH_{\beta \leftarrow }^t$$ (4)

      式中,以区划$\alpha $的视角统计迁至区划$\beta $的人口数量,应等同于以区划$\beta $视角统计的自区划$\alpha $迁入的人口数量。然后从真实数据中观察是否存在其他等式。对美元流通数据[30]、手机信令数据[31]、GPS漫游数据[32]和小样本的问卷调查[33]研究证实,群体视角下人类出行距离呈现出显著的幂律分布,或带指数截断的幂律分布特征,出行人数随出行距离增长将显著衰减。因此同省内的区划更有可能出现于彼此的Top100迁徙目的地中。宁夏回族自治区仅辖有5个地级市,是全国下辖地级市最少的省区之一,为缩短行文,在此将其作为示例进行考察。抽取2020年1月1日宁夏及所辖地级市的人口迁徙情况如表3表5所示。

      表 3  宁夏所辖区划2020年1月1日迁徙规模指数统计

      迁徙方向行政区划迁徙规模指数
      move_in银川0.877 521 6
      move_out银川0.911 898
      move_in石嘴山0.250 030 8
      move_out石嘴山0.248 054 4
      move_in吴忠0.487 684 8
      move_out吴忠0.473 688
      move_in固原0.206 712
      move_out固原0.200 005 2
      move_in中卫0.286 578
      move_out中卫0.270 637 2

      表 4  宁夏所辖区划2020年1月1日迁入百分比统计 %

      行政区划迁入
      银川石嘴山吴忠固原中卫
      银川018.1331.066.7810.00
      石嘴山63.1904.252.522.28
      吴忠59.922.0504.2612.98
      固原33.773.2910.17019.04
      中卫34.332.0121.9214.650

      其中表3可解读如:2020年1月1日,银川市迁入规模指数为0.877 521 6,迁出规模指数为0.911 898;表4可解读如:银川市迁入人口中有18.13%来自石嘴山市,有31.06%来自吴忠市;表5可解读如:银川市迁出人口中有17.32%前往石嘴山市,有32.04%前往吴忠市。

      表 5  宁夏所辖区划2020年1月1日迁出百分比统计 %

      行政区划迁出
      银川石嘴山吴忠固原中卫
      银川017.3232.047.6510.79
      石嘴山64.1704.042.742.32
      吴忠57.552.2404.4313.26
      固原29.753.1510.40020.99
      中卫32.442.1023.3914.540

      观察发现,表3表5中的内蕴等式为:

      $$P_{\alpha \to \beta }^tM_{\alpha \to }^t = P_{\beta \leftarrow \alpha }^tM_{\beta \leftarrow }^t$$ (5)

      为校验该内蕴等式是否成立,首先定义相对误差RE(relative error):

      $$\mathop {{\rm{RE}}}\nolimits_{\alpha \to \beta } = \frac{{{\rm{abs}}\left( {P_{\alpha \to \beta }^tM_{\alpha \to }^t - P_{\beta \leftarrow \alpha }^tM_{\beta \leftarrow }^t}\right)}}{{P_{\alpha \to \beta }^tM_{\alpha \to }^t}}$$ (6)

      相对误差RE的作用是评价迁徙数据相对于式(5)的偏离程度。将表3表5的数据代入式(6),以迁入数据为基准,得到以百分比表示的相对误差统计如表6所示。

      表 6  宁夏所辖区划2020年1月1日迁徙指数相对误差统计 %

      行政区划银川石嘴山吴忠固原中卫
      银川0.030.020.070.01
      石嘴山0.050.240.060.09
      吴忠0.020.150.180.01
      固原0.010.010.120.01
      中卫0.050.300.000.02

      表中可见,最大的相对误差值仅为0.3%,平均相对误差也仅为0.07%。因此,从小样本数据来看,可以认为内蕴等式得到了有效验证。

    • 注意到式(1)对迁徙规模指数特征的刻画仍是极为粗略的,满足该式的函数形式也不是唯一的。因此有必要推导出迁徙规模指数的确定表达式,即式(2)的确切形式。

      将式(2)代入式(5),可得:

      $$P_{\alpha \to \beta }^tf ( {H_{\alpha \to }^t} ) = P_{\beta \leftarrow \alpha }^tf ( {M_{\beta \leftarrow }^t} )$$ (7)

      $P_{\alpha \to \beta }^t \ne 0$时,式(4)可化为:

      $$H_{\alpha \to }^t = \frac{{P_{\beta \leftarrow \alpha }^t}}{{P_{\alpha \to \beta }^t}}H_{\beta \leftarrow }^t$$ (8)

      将式(8)代入式(7)可得:

      $$P_{\alpha \to \beta }^tf\left( {\frac{{P_{\beta \leftarrow \alpha }^t}}{{P_{\alpha \to \beta }^t}}H_{\beta \leftarrow }^t} \right)H_{\alpha \to }^t = P_{\beta \leftarrow \alpha }^tf( {H_{\beta \leftarrow }^t} )$$ (9)

      根据上文给出的可微假设,式(9)显然是一个连续可导函数。因此对式(9)两边分别求导并化简可得:

      $$\tag{10.a} f'\left( {\frac{{P_{\beta \leftarrow \alpha }^t}}{{P_{\alpha \to \beta }^t}}H_{\beta \leftarrow }^t} \right)H_{\alpha \to }^t = f'( {H_{\beta \leftarrow }^t} )$$ (10.a)

      由于迁徙人口百分比,即$P_{\beta \leftarrow \alpha }^t$$P_{\alpha \to \beta }^t$的随机特征,通常有$( {{{P_{\beta \leftarrow \alpha }^t} / {P_{\alpha \to \beta }^t}}} )H_{\beta \leftarrow }^t \ne H_{\beta \leftarrow }^t$。因此式(10.a)可等价为如下问题:对于任意给定的未知量${x_1}$, ${x_2}$,有:

      $$\tag{10.b} f'\left( {{x_1}} \right) \equiv f'\left( {{x_2}} \right) = k$$ (10.b)

      因此必然有:

      $$\tag{11.a} M_{i \leftarrow }^t = kH_{i \leftarrow }^t + b$$ (11.a)

      对应地,有:

      $$\tag{11.b} M_{i \to }^t = kH_{i \to }^t + b$$ (11.b)

      将式(11)代入式(5)可得:

      $$P_{\alpha \to \beta }^t( {kH_{\alpha \to }^t + b} ) = P_{\beta \leftarrow \alpha }^t( {kH_{\beta \leftarrow }^t + b} )$$ (12)

      利用式(4)约去式(12)的恒等项,有:

      $$P_{\alpha \to \beta }^tb \equiv P_{\beta \leftarrow \alpha }^tb$$ (13)

      同样考虑迁徙的随机特征,$P_{\alpha \to \beta }^t \equiv P_{\beta \leftarrow \alpha }^t$的条件显然不满足,因此必然有$b = 0$。于是对于任一时间与迁徙方向上的迁徙规模指数$\mathop M\nolimits_{i*}^t $和对应的实际迁徙人数$\mathop H\nolimits_{i*}^t $,必然有:

      $$\mathop M\nolimits_{i*}^t = \mathop {kH}\nolimits_{i*}^t $$ (14)

      即,迁徙规模指数可表达为实际迁徙人数的线性函数。

    • 在爬取的数据中,迁徙指数至多保留至小数点后7位,因此首先排除迁徙指数上的舍入误差问题。考虑人口迁徙的随机性,若指数存在舍入误差,则尾数的最后一位的取值应近似服从均匀分布。抽取2020年1月−4月迁徙规模指数共95 590条,最后一位实际取值分布如表7所示:

      其中,原生数据中小数点后有效数字不满7位的取值,以0补足。表中可见末位尾数全部为偶数,难以满足均匀分布推论,不应认为是偶然因素所致。因此有理由认为爬取的指数是一个精确的数值,可以排除舍入误差问题。

      表 7  迁徙规模指数尾数统计

      末位尾数频数末位尾数频数
      019 22850
      10618 981
      219 15170
      30819 196
      419 03490

      注意到实际迁徙人数必然为非负整数,即$H_{i \to }^t$$H_{i \leftarrow }^t$的值域必然是离散的。由此可得如下递进的推论。

      推论 1 $H_{i \to }^t$$H_{i \leftarrow }^t$的离散取值映射在迁徙指数$M_{i \to }^t$$M_{i \leftarrow }^t$上,使得$M_{i \to }^t$$M_{i \leftarrow }^t$的值域同样应是离散的;

      推论 2 若推论1成立,则$M_{i \to }^t$$M_{i \leftarrow }^t$的所有可能取值之间必然存在一个最小间距$\tau $,其物理意义可推断为最小迁移统计单位。不引入过多复杂性的前提下,可推断为一个自然人在迁徙规模指数上的映射;

      推论 3 若推论2成立,则最小间距$\tau $应能被任一$M_{i \to }^t$$M_{i \leftarrow }^t$的可能取值整除,即$\tau $必然为$M_{i \to }^t$$M_{i \leftarrow }^t$的公约数。

      对181 701条迁徙规模指数记录(包含2020年数据,及对应的2019年历史数据)进行统计,其中仅包含44 703个不同的取值。因此有理由认为,该指数的取值是离散的,即推论1是成立的。于是将44 703个出现过的指数值进行排序并取级差,结果如图1所示。

      图  1  迁徙规模指数取值级差

      图中可以看到鲜明的离散特征,即不同取值之间的差值集中在有限个离散的值上,这为推论2的成立提供了可靠的依据。更为关键的现象是,无论是级差还是迁徙规模指数取值,都是最小间隔3.24×10−5的正整数倍,有理由认为是一个或多个自然人在迁徙规模指数上映射的结果。

      接下来讨论实际迁徙人数的互质特征。根据费马−欧拉定理,s条记录值互质的概率$P\left( s \right)$可利用黎曼$\zeta $函数(Riemann $\zeta $ function, 当s为正整数时,$\zeta \left( s \right)$退化为欧拉乘积公式)表示为[34]

      $$P( s ) = \prod\limits_{\forall p \in {\rm{prime}}} {( {1 - \mathop p\nolimits^{ - s} } )} = \mathop {\zeta ( s )}\nolimits^{ - 1} $$ (15)

      式中,p的值域被定义为质数集合。根据$\zeta $函数性质可知,当$s \text{≥} 1$时,$P( s )$单调递增。特殊地,当s为正偶数时,$\zeta ( s )$的取值可解析地表达为:

      $$ \zeta ( s ) = {( { - 1} )}^{\frac{s}{2} - 1} \frac{{\mathop {( {2{{\text π} } })}\nolimits^s }}{{2s!}}B_s $$ (16)

      式中,$B_s $为第s项伯努利数(Bernoulli number)。

      s=10时,$P\left( s \right)$的值收敛至约99.9%;当s=14时,$P\left( s \right)$收敛至高于99.99%。即随机抽取不少于14条不同的迁徙人口值,其互质的概率超过99.99%,且随着抽取记录数量的增加,这一概率仍会进一步提升。而统计得到指数的取值高达4万余条,因此有理由认为,迁徙指数记录所代表的实际迁徙人数极高概率是互质的,其最大公约数为1。因此,可以认为当一个自然人映射到迁徙规模指数上时,有:

      $$\mathop M\nolimits_{i*}^t = k \times 1 = 3.24 \times {10^{ - 5}}$$ (17)

      于是,将斜率k代入式(13),可得任一方向上百度迁徙规模指数的构造方法为:

      $$\mathop M\nolimits_{i*}^t = \mathop H\nolimits_{i*}^t \mathop { \times 3.24 \times 10}\nolimits^{ - 5} $$ (18)
    • 通过对百度迁徙网站Web页面的分析可知,迁徙规模指数数据来自接口:http://huiyan.baidu.com/migration/historycurve.json,该接口以HTTP GET方法访问,并携带必要参数如表8所示。

      表 8  迁徙规模指数数据访问必要参数

      参数取值范围意义
      dtcity, province, country行政区划级别
      idGB/T2260-2007[32]行政区划代码
      typemove_in, move_out迁徙方向

      其中的id参数定义为以国家标准GB/T2260-2007定义的中华人民共和国行政区划代码[35],涵盖了所有省级区划及其(除直辖市)直管的下级区划。正常情况下返回JSON格式文本形如:

      {

       "errno": 0,

       "errmsg": "SUCCESS",

       "data": {

        "list": {

         "20190112": 7.6650624,

         "20190113": 7.8045444,

         $\cdots $

         "20200314": 2.0624544,

         "20200315": 2.2150584

        }

       }

      }

      其中的有效数据为list字段,记录了2020年春运期间特定区划在特定日期的迁徙规模指数,以及以农历日期对齐的2019年同期数据作为对比。

      地级市迁徙人口比例数据来自接口:

      http://huiyan.baidu.com/migration/cityrank.json

      省级迁徙人口比例数据来自接口:

      http://huiyan.baidu.com/migration/provincerank.json

      以上接口以HTTP GET方法访问,并携带必要参数如表9所示。

      表 9  迁徙百分比数据访问必要参数

      参数取值范围意义
      dtcity, province, country行政区划级别
      idGB/T2260-2007行政区划代码
      typemove_in, move_out迁徙方向
      date20200110~20200315数据统计日期

      正常情况下返回JSON格式文本形如:

      {

       "errno": 0,

       "errmsg": "SUCCESS",

       "data": {

        "list": [

        {

        "city_name": "\u5eca\u574a\u5e02",

        "province_name": "\u6cb3\u5317\u7701",

        "value": 21.72

        },

        $\cdots $

        {

        "city_name": "\u5357\u901a\u5e02",

        "province_name": "\u6c5f\u82cf\u7701",

        "value": 0.12

        }

        ]

       }

      }

      其中有效数据为list字段。"city_name"等字段以Unicode转义字符形式编码,使用时应进行解码。

    • 百度迁徙网站一种可能的反爬虫策略为随机投放污染数据。举例而言,本文初次爬取的三亚市在2020年2月2日迁出至地级市的数据即可能存在污染。与真实数据对比如表10所示。

      限于篇幅,表10仅枚举前3位数据。因此为了确保爬取数据的准确性,采用了一种主−从爬虫框架,首先确保主从节点使用不同的IP地址,由主节点按日期爬取数据并进行校验。对于校验失败的数据,交由从节点重新爬取,以避免主从节点同时被远程主机屏蔽。

      表 10  污染数据与真实数据对比示例

      位次污染数据真实数据
      区划百分比/%区划百分比/%
      1重庆市1.56乐东黎族自治县10.77
      2成都市1.36陵水黎族自治县7.55
      3广州市1.25海口市6.74
      $\cdots $$\cdots $$\cdots $$\cdots $$\cdots $
      *注:不同爬取节点的污染数据可能有差异。

      数据有效性的校验规则是隔离污染数据的关键。一方面,对于某一特定区划α,仅有前100位的迁徙人口流量数据被公开,因此存在$P_{\alpha \to \beta }^t$$P_{\beta \leftarrow \alpha }^t$单向或双向缺失的可能;另一方面,对于区划α而言,污染数据投放至特定日期和特定方向的全部数据,目前未发现针对特定区划对$\left\langle {\alpha ,\beta } \right\rangle $的污染策略。由此,设计数据有效性校验算法如下:

      算法 1 数据有效性校验算法

      For each day t and area tuple <α, β>:

       If both $P_{\alpha \to \beta }^t$ and $P_{\beta \leftarrow \alpha }^t$ exist:

        If ${\rm{abs}}\left( {P_{\alpha \to \beta }^t\mathop M\nolimits_{\alpha \to }^t - P_{\beta \leftarrow \alpha }^t\mathop M\nolimits_{\beta \leftarrow }^t } \right) \text{≥} \varepsilon$:

         Report error <α, β>

      本文实验取$\varepsilon = P_{\alpha \to \beta }^t\mathop M\nolimits_{\alpha \to }^t \times 0.05$。对于多次爬取仍无法通过校验的记录,改由人工校验和爬取。

    • 百度慧眼通过移动互联网进行数据采集。受网络质量和用户行为等因素影响,数据测量过程本身产生的误差并不能完全排除。而本文提出的初等函数映射成立的基础是内蕴等式(4)的成立,因此在考察式(5)能否得到满足时,除因人口迁徙百分比仅保留至小数点后2位有效数字所引起的舍入误差外,亦不能忽视测量误差的存在,误差的严重程度应进行准确判断。在此,取2020年1月1日 − 4月30日共4个自然月的数据,将迁徙百分比$P_{\alpha \to \beta }^t$的取值松弛到区间$[ P_{\alpha \to \beta }^t - 0.005\% , P_{\alpha \to \beta }^t + $$ 0.005\% )$以解释舍入误差。当$P_{\alpha \to \beta }^tM_{\alpha \to }^t$$P_{\beta \leftarrow \alpha }^tM_{\beta \leftarrow }^t$取值区间的交集为$\phi $,即存在无法以四舍五入解释的误差时,将此类记录归为异常记录。

      首先考察市际迁徙流量是否满足本文提出的线性关系。在数据中,北京、上海等4个直辖市,以及湖北省潜江市、天门市和新疆维吾尔自治区石河子市、图木舒克市等直辖县级行政区划均被纳入城市区划进行采集和统计。数据中,约93.81%的记录误差位于舍入误差区间内,异常记录仅占约6.19%。意味着在城市间交通流量这个层面,线性映射模型的基本假定可以得到满足,数据测量误差对于函数映射模型有效性的影响是有限的。正常记录、异常记录和全部记录的相对误差累积分布如图2a所示。图中可见,大约81.2%的记录相对误差在5%以内;而由于异常记录占比较低,过滤异常记录后,这一指标微升到82.8%。对于异常记录而言,这一百分比则有51.1%。然而仅仅考察相对误差是不够全面的,误差的绝对差值,抑或就本文述及的模型而言,误差的绝对人口数,也是评价模型有效性的重要指标。定义绝对误差AE(absolute error):

      图  2  市际迁徙流量校验

      $$\mathop {{\rm{AE}}}\nolimits_{\alpha \to \beta } = {\rm{abs}}( {P_{\alpha \to \beta }^tM_{\alpha \to }^t - P_{\beta \leftarrow \alpha }^tM_{\beta \leftarrow }^t} )$$ (19)

      迁入流量的绝对误差与式(19)类似,不再赘述。绝对误差的含义显然是经由线性映射模型换算后城市$\alpha $$\,\beta $统计视角下迁徙人口的差值。图2b是正常节点绝对误差统计直方图。图中可见,对于正常记录而言,当不考虑舍入误差时,有约87.44%的记录绝对误差不多于3人;约93.44%的记录绝对误差不多于5人。绝对误差的极值出现在1月20日:当日汕头视角下自深圳迁入人口及对应的反向记录的误差达到了79人的极值,但对应的相对误差仅为0.48%。因此有理由认为,相较于测量误差,舍入误差具备压倒性的影响。当考虑舍入误差时,迁徙人数的取值将松弛为某个特定区间,因此记录的绝对误差显著减小。图2c统计了异常记录绝对误差人数。图中可以看到,即使是异常记录,其最大绝对误差人数相对于舍入误差区间也仅偏出36人。在异常记录中,有82.98%的记录误差人数在3人以内,有98.65% 的记录绝对误差人数在10人以内。可见,少量的违例现象对线性映射模型不产生本质影响,将其假定为数据测量误差是自洽的。

      注意到一个现象,即较多的绝对误差人数未必对应于较高的相对误差。因此,通过图2d分析异常记录的相对误差和绝对误差的对应关系。该图可分为4个逻辑象限:高相对误差高绝对误差;高相对误差低绝对误差;低相对误差高绝对误差和高相对误差高绝对误差。在图中,高相对误差高绝对误差区域几乎为空白。此外,除在低相对误差低绝对误差象限集中了大部分记录外,另外两个象限也存在一定比例的记录分布。分析可知,当两地人口迁徙流量悬殊时,以低流量区划视角统计的记录易出现高相对误差低绝对误差的情况:而两地人口流量均较大时,则易出现低相对误差高绝对误差的违例数据。

      市−省间迁徙流量数据同样可以印证线性映射模型的有效性。利用与市际迁徙流量相同的统计方法进行分析。如图3a,有82.65%的数据记录误差位于舍入误差区间内。该数据虽较城市间流量数据偏低,但全部记录的相对误差同时亦有显著降低:有约92.06%的记录相对误差不高于5%;这一指标在正常记录中达到了97.13%,在异常记录中同样达到了77.3%,说明在市省流量层面的测量误差影响同样是有限的。图3b是正常记录的绝对误差统计。其中有73.86%的绝对误差人数在3人以内,有95.77%的绝对误差人数在10人以内。在正常记录中误差人数极值为97人,出现于1月20日北京市视角下自广东省迁入人数,此时相对误差为1.32%,仍处于舍入误差松弛区间。如图3c,当将考察视角迁移到异常记录时,发现擦除舍入误差后最大误差人数为250人,出现于1月17日濮阳市视角下自山东省迁入数据,此时对应的相对误差也仅为2.64%。注意到即使仅考虑异常记录,也有约98.6%的绝对误差人数仍不多于50人——对于少则数百万,多则近亿人口的省级行政区划而言,可以认为这个量级的测量误差影响仍是有限的。相对误差与绝对误差的对应关系如图3d所示。可见在市−省层面表现出了与市际迁徙相似的分布特征,但其低相对误差低绝对误差象限的记录更加贴近相对误差坐标轴。一个合理的解释是,省级区划的迁徙记录来自下辖市级区划对应记录的简单加和,因此下属区划间测量误差的累积会抬高绝对误差;但由于测量误差存在部分相互抵消的现象,而市级区划的流量基数不变,因此随着迁徙流量的累加,相对误差反而会有所下降。

      图  3  市−省迁徙流量校验

      将同样的分析方法应用于省际迁徙数据进行验证。在图4a中,有84.87%的记录误差可被舍入误差区间覆盖。同时,由于记录两端的节点均为省级区划,人口迁徙基数较大,降低了迁徙记录的相对误差:有50.73%的记录相对误差小于0.5%;89.43%的记录相对误差小于5%。图4b4c分别统计了正常记录与擦除舍入误差后异常记录的绝对误差。可以看出,即使在省级区划这个层面,绝对误差仍可控制在相对很低的水平。对4个月的迁徙记录统计显示,正常记录中的极值出现于1月12日江西视角下自广东迁入记录,与其对应的反向记录差值为107人,对应的相对误差仅为0.05%。异常记录中的极值出现在1月23日北京视角下迁往山东的记录及对应的反向记录,此时绝对误差达到357人。相对于两地当日该方向上70871~71337人的迁徙人数而言,其相对误差仅为约0.5%。如图4d所示,相对误差与绝对误差的关系也体现出与市际流量和市省流量相似的特征。但随着流量基数的增加,低相对误差高绝对误差象限汇聚了相对更多的记录。总的来看,省际迁徙流量的数据同样可以给予线性映射模型有力的支持。

      图  4  省际迁徙流量校验

    • 人类迁徙活动是人口经济学、人类地理学乃至流行病学研究的重要依据。本文针对百度慧眼提供的国内长达4个月的人类迁徙数据进行分析归纳出数据中的一个内蕴等式。结合给出的基本假设:不同日期,方向与区划的实际迁徙人口与百度迁徙规模指数映射关系可用相同的初等函数表达,反演出迁徙规模指数的一个自洽的线性映射生成方法,即任一区划i在日期t的任一方向迁徙规模指数$\mathop M\nolimits_{i*}^t $与当日在该方向上的实际迁徙人口$\mathop H\nolimits_{i*}^t $满足简单线性映射关系$\mathop M\nolimits_{i*}^t = \mathop {kH}\nolimits_{i*}^t $。通过迁徙人口的离散特征和费马−欧拉定理推导得到迁徙人口的高概率互质特性,结合真实数据进行参数估计,得到待定参数的有效估计k=3.24×10−5。为了验证线性映射模型的有效性,在全部数据记录上考察了内蕴等式的可信程度。验证结果对线性映射模型的支持显著:在市际迁徙流量层面,有93.81%的迁徙记录完全支持内蕴等式的成立,其误差可以完全由舍入误差解释;在市−省迁徙流量层面,有82.65%的记录完全支持内蕴等式;在省际迁徙流量层面,有84.87%的记录完全支持内蕴等式。少量违例记录相对于内蕴等式计算结果的偏差均较轻微,一般可认为是移动互联网测量手段限制所导致的误差。内蕴等式的可靠验证有效佐证了线性映射模型的自洽,使得从百度迁徙数据反推出区划间的实际迁徙人数成为可能。

参考文献 (35)

目录

    /

    返回文章
    返回