留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于时间序列关系的GBRT交通事故预测模型

杨文忠 张志豪 吾守尔·斯拉木 温杰彬 富雅玲 王丽花 王婷

杨文忠, 张志豪, 吾守尔·斯拉木, 温杰彬, 富雅玲, 王丽花, 王婷. 基于时间序列关系的GBRT交通事故预测模型[J]. 电子科技大学学报, 2020, 49(4): 615-621. doi: 10.12178/1001-0548.2019151
引用本文: 杨文忠, 张志豪, 吾守尔·斯拉木, 温杰彬, 富雅玲, 王丽花, 王婷. 基于时间序列关系的GBRT交通事故预测模型[J]. 电子科技大学学报, 2020, 49(4): 615-621. doi: 10.12178/1001-0548.2019151
YANG Wen-zhong, ZHANG Zhi-hao, WUSHOUER Silamu, WEN Jie-bin, FU Ya-ling, WANG Li-hua, WANG Ting. GBRT Traffic Accident Prediction Model Based on Time Series Relationship[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(4): 615-621. doi: 10.12178/1001-0548.2019151
Citation: YANG Wen-zhong, ZHANG Zhi-hao, WUSHOUER Silamu, WEN Jie-bin, FU Ya-ling, WANG Li-hua, WANG Ting. GBRT Traffic Accident Prediction Model Based on Time Series Relationship[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(4): 615-621. doi: 10.12178/1001-0548.2019151

基于时间序列关系的GBRT交通事故预测模型

doi: 10.12178/1001-0548.2019151
基金项目: 新疆维吾尔自治区自然科学基金(2017D01C042)
详细信息
    作者简介:

    杨文忠(1971-),男,博士,副教授,主要从事网络舆情、情报分析、信息安全等方面的研究

    通讯作者: 张志豪,E-mail:1464501547@qq.com
  • 中图分类号: U495

GBRT Traffic Accident Prediction Model Based on Time Series Relationship

  • 摘要: 道路交通事故是道路交通安全水平的具体表现。在当前交通事故预测工作中,存在对数据中时间序列关系的挖掘不充分、预测的周期宏观、交通事故相关的影响因素考虑不全等问题。该文提出一种基于时间序列关系的梯度提升回归树(GBRT)交通事故模型。该模型对英国Leicester的2005−2015年每天的交通事故数、死亡人数、涉事的车辆数进行预测。实验结果显示,引入时间序列关系有助于提升模型预测精度。预测结果为交通管理部门的决策起到参考作用,建模方式为同类型预测问题的建模工作带来了积极的参考意义。
  • 图  1  boosting集成学习框架的示意图

    表  1  特征取值类型及子标签数量

    特征名称取值类型子标签数
    事故数数值类型/
    死亡人数数值类型/
    涉事的车辆数数值类型/
    事故严重程度离散类型3
    道路等级离散类型6
    道路类型离散类型8
    速度限制离散类型6
    光线条件离散类型7
    天气状况离散类型9
    路面条件离散类型5
    城市或农村地区离散类型3
    现场是否出现警察离散类型4
    驾驶员性别离散类型3
    驾驶员年龄段离散类型12
    特征子标签数合计/66
    下载: 导出CSV

    表  2  道路类别子标签映射示例

    日期编码道路类别子标签事故数死亡人数涉事车辆数
    2005/1/11环状交叉路口 (roundabout)111
    2005/1/16不分隔车路 (single carriageway)597
    2005/1/12单行道 (one way street)空值空值空值
    2005/1/13双线车道 (dual carriageway)空值空值空值
    2005/1/17通往高速公路之交流道 (slip road)空值空值空值
    2005/1/19未知 (unknown)空值空值空值
    2005/1/112单向街/支路 (one way street/slip road)空值空值空值
    2005/1/1−1数据丢失或超出范围 (data missing or out of range)空值空值空值
    下载: 导出CSV

    表  3  数据集信息描述

    数据类别记录特征数预测目标
    one_by_one4 01767事故数
    4 01767死亡人数
    4 01767涉事的车辆数
    last_week4 01067事故数
    4 01067死亡人数
    4 01067涉事的车辆数
    last_year3 65567事故数
    3 65567死亡人数
    3 65567涉事的车辆数
    merge_week4 010134事故数
    4 010134死亡人数
    4 010134涉事的车辆数
    merge_year3 655134事故数
    3 655134死亡人数
    3 655134涉事的车辆数
    下载: 导出CSV

    表  4  模型超参信息表

    建模方法数据(零值填充/均值填充)
    学习率最大
    深度
    最小
    样本
    分裂
    节点
    估计
    器数
    one_by_one_accident0.1/0.12/21/12/2140/140
    one_by_one_casualties0.2/0.13/21/13/2130/140
    one_by_one_vehicles0.1/0.12/21/15/4100/120
    last_week_accident0.1/0.22/21/13/6130/130
    last_week_casualties0.2/0.12/21/12/2130/130
    last_week_vehicles0.1/0.22/21/12/2120/140
    last_year_accident0.2/0.22/21/14/2130/100
    last_year_casualties0.2/0.29/21/13/290/130
    last_year_vehicles0.2/0.12/21/12/290/110
    merge_year_accident0.2/0.13/21/13/340/140
    merge_year_casualties0.2/0.22/21/13/380/100
    merge_year_vehicles0.2/0.12/21/12/2110/120
    merge_week_accident0.1/0.12/21/13/5110/110
    merge_week_casualties0.2/0.22/21/13/290/100
    merge_week_vehicles0.2/0.12/21/12/640/140
    下载: 导出CSV

    表  5  不同建模方法在测试集上预测结果表

    建模方法零值填充比较结果均值填充
    rmsleR-squarermsleR-square
    one_by_one_accident0.010 694 40.989 643 6<0.009 400 10.990 108 2
    one_by_one_casualties0.076 180 10.142 487 8<0.069 511 20.177 686 4
    one_by_one_vehicles0.056 437 00.302 941 7<0.055 705 50.318 687 7
    last_week_accident0.002 954 90.999 589 9>0.003 012 20.999 588 6
    last_week_casualties0.019 512 60.906 438 4>0.023 288 00.889 549 4
    last_week_vehicles0.018 403 90.944 819 6<0.016 416 40.958 028 6
    last_year_accident0.005 764 70.999 830 0<0.007 508 60.999 861 5
    last_year_casualties0.011 052 80.999 984 6<0.010 696 40.999 340 0
    last_year_vehicles0.033 843 50.998 134 4<0.027 991 20.9987472
    merge_year_accident0.007 009 00.999 965 4>0.009 347 40.999 854 4
    merge_year_casualties0.024 341 10.997 904 2<0.013 775 00.999 091 9
    merge_year_vehicles0.033 320 10.998 114 0<0.033 062 00.997 947 4
    merge_week_accident0.003 047 00.999 618 1>0.003 068 30.999 578 0
    merge_week_casualties0.027 697 00.851 847 8<0.018 820 90.944 924 2
    merge_week_vehicles0.038 087 20.926 162 4<0.023 322 30.896 847 1
    下载: 导出CSV
  • [1] United Nations. Transforming our world: The 2030 agenda for sustainable development[EB/OL]. [2019-01-08]. https://sustainabledevelopment.un.org/post2015/transformingourworld.
    [2] DENG J L. Control problems of grey systems[J]. Systems & Control Letters, 1982, 1(5): 288-294.
    [3] JUNUS N W M, ISMAIL M T. Modelling road accidents: An approach using structural time series[C]//Statistics and Operational Research International Conference. Sarawak, Malaysia: [s.n.], 2014: 228-238.
    [4] PARVAREH M, KARIMI A, REZAEI S, et al. Assessment and prediction of road accident injuries trend using time-series models in Kurdistan[J]. Burns & Trauma, 2018, 6(1): 55-62.
    [5] EFENDI R, DERIS M M. Non-probabilistic inverse fuzzy model in time series forecasting[J]. International Journal of Uncertainty Fuzziness and Knowledge-Based Systems, 2018, 26(5): 855-873. doi:  10.1142/S0218488518500381
    [6] IHUEZE C C, ONWURAH U O. Road traffic accidents prediction modelling: An analysis of Anambra State, Nigeria[J]. Accident Analysis and Prevention, 2018, 112: 21-29. doi:  10.1016/j.aap.2017.12.016
    [7] FOROUTAGHE M D, MOGHADDAM A M, FAKOOR V. Time trends in gender-specific incidence rates of road traffic injuries in Iran[J]. PloS One, 2019, 14(5): e0216462. doi:  10.1371/journal.pone.0216462
    [8] SUN Y, SHAO C, JI X, et al. Urban traffic accident time series prediction model based on combination of ARIMA and information granulation SVR[J]. Journal of Tsinghua University (Science and Technology), 2014, 54(3): 348-353, 359.
    [9] TONGYUAN H, YUE W. Forecasting model of urban traffic accidents based on Grey Model-GM(1,1)[C]//Second Workshop on Digital Media and Its Application in Museum & Heritage. [S.l]: IEEE, 2008, DOI: 10.1109/DMAMH. 2007.81.
    [10] HOSSE R S, BECKER U, MANZ H. Grey systems theory time series prediction applied to road traffic safety in Germany[J]. Ifac Papersonline, 2016, 49(3): 231-236. doi:  10.1016/j.ifacol.2016.07.039
    [11] LIU S B, WU C W. Road traffic accident forecast based on optimized grey verhulst model[C]//Proceedings of the 2016 Joint International Information Technology, Mechanical and Electronic Engineering. [S.1.]: [s.n.], 2016, 59: 546-551.
    [12] 赵玲, 许宏科. 基于灰色加权马尔可夫SCGM(1,1)c的交通事故预测[J]. 计算机工程与应用, 2012, 48(31): 11-15, 145. doi:  10.3778/j.issn.1002-8331.2012.31.003

    ZHAO Ling, XU Hong-ke. Traffic accident prediction based on gray weighted Markov SCGM (1, 1)c[J]. Computer Engineering and Application, 2012, 48(31): 11-15, 145. doi:  10.3778/j.issn.1002-8331.2012.31.003
    [13] 赵玲, 许宏科, 程鸿亮. 基于最优加权组合模型的道路交通事故预测[J]. 计算机工程与应用, 2013, 49(24): 11-15. doi:  10.3778/j.issn.1002-8331.1305-0324

    ZHAO Ling, XU Hong-ke, CHENG Hong-liang. Road traffic accidents prediction based on optimal weighted combined model[J]. Computer Engineering and Applications, 2013, 49(24): 11-15. doi:  10.3778/j.issn.1002-8331.1305-0324
    [14] HE M, GUO X C. The application of BP neural network principal component analysis in the forecasting the road traffic accident[C]//ICICTA: 2009 Second International Conference on Intelligent Computation Technology and Automation, Vol I. [S.l]: IEEE, 2009: 107-111.
    [15] SHEN J, ZHENG C, WANG T, et al. Analysis on the algorithm and reliability of traffic accident forecast[C]//Proceedings of the 2nd International Conference on Modelling and Simulation. [S.l.]: IEEE Computer Society, 2009: 11-16.
    [16] 胡立伟, 张婷, 郭凤香, 等. 基于灰色BP神经网络的道路交通事故车型分担率预测及其预防策略研究[J]. 武汉理工大学学报(交通科学与工程版), 2018, 42(3): 388-392, 397.

    HU Li-wei, ZHANG Ting, GUO Feng-xiang, et al. Traffic accident split rate of vehicle types prediction based on gray BP neural network and prevention strategies study[J]. Journal of Wuhan University of Technology (Transportation Science & Engineering), 2018, 42(3): 388-392, 397.
    [17] FRIEDMAN J H. Greedy function approximation: A gradient boosting machine[J]. The Annals of Statistics, 2001, 29(5): 1189-1232.
    [18] 李航. 统计学习方法[M]. 北京: 清华大学出版社, 2012: 21-35.

    LI Hang. Statistical learning methods[M]. Beijing: Tsinghua University Press, 2012: 21-35.
    [19] HAUER E. On prediction in road safety[J]. Safety Science, 2010, 48(9): 1111-1122. doi:  10.1016/j.ssci.2010.03.003
  • [1] 郁湧, 杨雨洁, 李虓晗, 高悦, 于倩.  基于全局图注意力元路径异构网络的药物−疾病关联预测 . 电子科技大学学报, 2024, 53(4): 576-583. doi: 10.12178/1001-0548.2023235
    [2] 杨骏, 敬思远, 钟勇.  面向时间序列有序分类的Shapelet抽取算法 . 电子科技大学学报, 2023, 52(6): 887-896. doi: 10.12178/1001-0548.2022278
    [3] 李海林, 张丽萍.  时间序列数据挖掘中的聚类研究综述 . 电子科技大学学报, 2022, 51(3): 416-424. doi: 10.12178/1001-0548.2022055
    [4] 黄峻嘉, 张琪, 赵娜, 李蓉, 苏宇涵, 周涛.  基于近视筛查数据的近视影响因素分析和近视预测 . 电子科技大学学报, 2021, 50(2): 256-260. doi: 10.12178/1001-0548.2020426
    [5] 李海林, 贾瑞颖, 谭观音.  基于K-Shape的时间序列模糊分类方法 . 电子科技大学学报, 2021, 50(6): 899-906. doi: 10.12178/1001-0548.2020380
    [6] 喻孜, 张贵清, 刘庆珍, 吕忠全.  基于时变参数-SIR模型的COVID-19疫情评估和预测 . 电子科技大学学报, 2020, 49(3): 357-361. doi: 10.12178/1001-0548.2020027
    [7] 李海林, 万校基.  基于簇中心群的时间序列数据分类方法 . 电子科技大学学报, 2017, 46(3): 625-630. doi: 10.3969/j.issn.1001-0548.2017.03.024
    [8] 王亦雷, 嵇智源, 夏勇, 秦臻, 程红蓉.  移动用户人口统计信息预测 . 电子科技大学学报, 2015, 44(6): 917-920. doi: 10.3969/j.issn.1001-0548.2015.06.021
    [9] 刘瑶, 王瑞锦, 刘峤, 秦志光.  动态社会网络的社团结构检测与分析 . 电子科技大学学报, 2014, 43(5): 724-729. doi: 10.3969/j.issn.1001-0548.2014.05.016
    [10] 李星毅, 李奎, 施化吉, 周双全.  背景值优化的GM(1,1)预测模型及应用 . 电子科技大学学报, 2011, 40(6): 911-914. doi: 10.3969/j.issn.1001-0548.2011.06.020
    [11] 滕云龙, 师奕兵, 郑植.  接收机钟差灰色马尔可夫预测模型研究 . 电子科技大学学报, 2011, 40(2): 242-245. doi: 10.3969/j.issn.1001-0548.2011.02.017
    [12] 陈其松, 陈孝威, 张欣, 吴茂念.  优化SVM在锅炉负荷预测中的应用 . 电子科技大学学报, 2010, 39(2): 316-320. doi: 10.3969/j.issn.1001-0548.2010.02.035
    [13] 周金柱, 段宝岩, 黄进, 李华平.  裂缝天线缝制造精度对电性能影响的预测 . 电子科技大学学报, 2009, 38(6): 1047-1051. doi: 10.3969/j.issn.1001-0548.2009.06.033
    [14] 黄建国, 罗航, 王厚军, 龙兵.  运用GA-BP神经网络研究时间序列的预测 . 电子科技大学学报, 2009, 38(5): 687-692. doi: 10.3969/j.issn.1001-0548.2009.05.028
    [15] 梁冰, 刘群.  基于自动机模型数据关联性能评估算法 . 电子科技大学学报, 2008, 37(4): 606-609,629.
    [16] 王金龙, 徐从富, 徐娇芬, 骆国靖.  利用销售数据的商品影响关系挖掘研究 . 电子科技大学学报, 2007, 36(6): 1282-1285.
    [17] 周巧临, 傅彦.  科学数据时间序列的预测方法 . 电子科技大学学报, 2007, 36(6): 1260-1263.
    [18] 程瑜蓉, 郭双冰.  基于混沌时间序列分析的股票价格预测 . 电子科技大学学报, 2003, 32(4): 469-472.
    [19] 胡晓, 陈拥军, 曾敏, 尧德中.  一种选取相空间重构最优延迟时间的算法 . 电子科技大学学报, 2000, 29(3): 282-285.
    [20] 陈羽中.  同态滤波在扭矩载荷识别中的应用 . 电子科技大学学报, 1999, 28(3): 269-272.
  • 加载中
图(1) / 表(5)
计量
  • 文章访问数:  6200
  • HTML全文浏览量:  2356
  • PDF下载量:  63
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-06-26
  • 修回日期:  2020-04-23
  • 网络出版日期:  2020-07-29
  • 刊出日期:  2020-07-10

基于时间序列关系的GBRT交通事故预测模型

doi: 10.12178/1001-0548.2019151
    基金项目:  新疆维吾尔自治区自然科学基金(2017D01C042)
    作者简介:

    杨文忠(1971-),男,博士,副教授,主要从事网络舆情、情报分析、信息安全等方面的研究

    通讯作者: 张志豪,E-mail:1464501547@qq.com
  • 中图分类号: U495

摘要: 道路交通事故是道路交通安全水平的具体表现。在当前交通事故预测工作中,存在对数据中时间序列关系的挖掘不充分、预测的周期宏观、交通事故相关的影响因素考虑不全等问题。该文提出一种基于时间序列关系的梯度提升回归树(GBRT)交通事故模型。该模型对英国Leicester的2005−2015年每天的交通事故数、死亡人数、涉事的车辆数进行预测。实验结果显示,引入时间序列关系有助于提升模型预测精度。预测结果为交通管理部门的决策起到参考作用,建模方式为同类型预测问题的建模工作带来了积极的参考意义。

English Abstract

杨文忠, 张志豪, 吾守尔·斯拉木, 温杰彬, 富雅玲, 王丽花, 王婷. 基于时间序列关系的GBRT交通事故预测模型[J]. 电子科技大学学报, 2020, 49(4): 615-621. doi: 10.12178/1001-0548.2019151
引用本文: 杨文忠, 张志豪, 吾守尔·斯拉木, 温杰彬, 富雅玲, 王丽花, 王婷. 基于时间序列关系的GBRT交通事故预测模型[J]. 电子科技大学学报, 2020, 49(4): 615-621. doi: 10.12178/1001-0548.2019151
YANG Wen-zhong, ZHANG Zhi-hao, WUSHOUER Silamu, WEN Jie-bin, FU Ya-ling, WANG Li-hua, WANG Ting. GBRT Traffic Accident Prediction Model Based on Time Series Relationship[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(4): 615-621. doi: 10.12178/1001-0548.2019151
Citation: YANG Wen-zhong, ZHANG Zhi-hao, WUSHOUER Silamu, WEN Jie-bin, FU Ya-ling, WANG Li-hua, WANG Ting. GBRT Traffic Accident Prediction Model Based on Time Series Relationship[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(4): 615-621. doi: 10.12178/1001-0548.2019151
  • 到2020年,将道路交通事故造成的全球伤亡人数减半是联合国2015年发布的可持续发展目标之一[1]。国家在交通安全上的注意力不断增加,十九大报告中提出建设“交通强国”的口号,交通运输部门又提出了建设“新型交通运输智库”的政策。将交通事故态势预测结果应用到交通规划中,能提高交通安全水平。

    研究者对交通事故的某些指标进行了预测,研究方法主要分为3类:统计回归法、灰色预测[2]、神经网络模型方法。

    统计回归方法包括时间序列预测和许多经典的交通事故经验模型。文献[3]采用结构时间序列方法对马来西亚2001−2012年道路交通事故趋势进行了建模。文献[4]采用时间序列分析方法对库尔德斯坦地区道路交通事故伤亡数据进行了表征和预测。文献[5]将逆模糊函数引入到模糊时间序列预测的研究中,提高了时序预测工作的精度。文献[6]利用自回归综合移动平均线(ARIMA)和具有解释变量的自回归综合移动平均线(ARIMAX)建模技术,建立预测尼日利亚阿南布拉州事故频率的预测模型。文献[7]采用季节自回归综合移动平均法(SARIMA)预测了伊朗2005年3月−2016年2月月度道路交通伤害(RTI)的时间趋势。文献[8]建立了基于ARIMA模型和SVR模型的混合预测模型,用于交通事故统计指标的时间序列预测。回归模型具有计算简单方便的特点,对短期的数据变化有一定的预测能力,其实质是对数据的线性拟合。由于交通事故自身的随机性大,影响因素众多,且抗干扰能力弱,所以该方法预测的结果具有片面性,预测结果的可靠性得不到保证。

    在样本数量少的情况下,灰色预测可以对具有光滑离散函数特性的数据建模进行预测。文献[9]提出了一种具有强指数规律的序列GM(1,1)模型来预测交通事故,但该模型只能描述单调的变化过程。文献[10]采用灰色系统理论MGM(1,4),基于电子稳定程序(ESP)的市场扩散,预测了德国2025年前道路交通事故的趋势。文献[11]提出了道路交通事故的灰色Verhulst预测模型,适用于非单调摆动发展序列或具有饱和状态的S形序列。文献[12]基于灰色系统理论和马尔可夫链理论,应用SCGM(1,1)_c拟合了道路交通时序数据的总体趋势。文献[13]提出了一种加权组合多种灰色预测方法的模型,虽然预测精度有所提高,但其实质是原始数据的线性组合,中长期预测仍存在不足。

    神经网络预测方法具有较强的非线性映射及自学习能力、高鲁棒性,在许多领域得到了广泛的应用。文献[14]提出了一种基于BP神经网络的交通事故预测模型。文献[15]利用交通事故预测算法(如时间序列法、灰色预测理论和神经网络方法)预测1981−2007年中国交通事故总数。由于BP神经网络模型存在训练收敛速度慢、训练时间长、易陷入鞍点等缺点,文献[16]提出了一种灰色神经网络模型。灰色理论弥补了小样本数据中失真数据挖掘的不足,而神经网络弥补了灰色理论只能用于短期预测的不足。

    本文的主要工作有:

    1) 交通事故具有时间空间上的异构性,而大多数学者的预测工作过于宏观,空间上以国家为单位,时间上以年为单位,在应用层面,对有关管理部门的指导意义不大。本文充分利用了与交通事故相关的人、车、路、环境等特征,建立了基于GBRT方法的交通事故预测模型,对英国城市每日的交通事故数据进行预测。

    2) 在数据建模时,针对离散类别特征,传统的One-Hot Encoding方式,只能表达特征类别,不能表达特征数量,本文通过统计方法构造出离散类别特征的标签与事故数据之间的映射关系,使用映射数据来进行预测工作。

    3) 针对时序建模过程中,对数据中时序关系挖掘不充分的问题,本文在数据建模中同时考虑了长周期段、短周期段中的时间序列关系,利用多种时间序列关系来构造数据集。

    • GBRT是boosting[17]类型的集成学习算法[18]。集成学习是一种技术框架,它通过使用多个不同的基模型进行组合,完成相应的工作,以求更加高效、准确。目前常用的集成学习框架包括:bagging、stacking和boosting。其中boosting框架使用多组基模型分别进行训练,所有基模型的结果经过线性组合得到鲁棒性更高的预测结果。图1为boosting集成学习框架的示意图。

      基于boosting框架描述如下:

      $$F(x) = \sum\limits_i^m {{h_i}(x)} $$ (1)

      式中,hi(x)表示基模型。整体模型的训练目标是使预测值F(x)逼近真实值y,专家学者们以贪心算法的思想让每个基模型分别承担部门预测任务,分别逼近各自的预测任务,对每个基模型所产生的误差进行重点攻克。

      $${F^i}(x) = {F^{i - 1}}(x) + {h_i}(x)$$ (2)

      通过引入任意损失函数,拟合反向梯度,有:

      $$ {F^i}(x) = {F^{i - 1}}(x) + \arg \min \sum\limits_j^n {L({y_j},{F^{i - 1}}({x_j}) + } {h_i}({x_j})) $$ (3)

      GBRT是基函数使用树结构的boosting集成学习模型。对于给定的n条记录的m个特征,使用K个树函数累加来预测输出:

      $${\hat y_i} = \phi ({x_i}) = \sum\limits_{k = 1}^K {{f_k}({x_i}),{f_k} \in \varGamma } $$ (4)
      $$\varGamma = \{ f(x) = {w_{q(x)}}\} (q:{\Re ^m} \to {\ T},\omega \in {\Re ^{\ T}})$$ (5)

      式中,q表示将记录映射到相应的叶索引的每个树的结构;T是树上的叶子数;每个f对应一个独立的树结构q和叶子权重wwi表示第i个叶子上的得分。利用线性搜索估计叶节点区域的值,使损失函数极小化,然后更新回归树。

      图  1  boosting集成学习框架的示意图

    • 本文使用了英国运输部公开的2005−2015年的交通事故数据“road-accidents-safety-data”。经过统计排序,从207个城市筛选出了事故最多的城市Leicester(编码:E10000016)作为数据样本。2005−2015年,这座城市发生了49 209起交通事故,死亡人数为67 039,涉及事故车辆达到了91 963辆。

    • 交通事故的发生由多种因素共同导致,本文综合考虑了人、车、路、环境4方面因素,选取的特征详细信息如表1所示。

    • 表1中的11类离散类别特征,在时间维度上使用传统One-Hot Encoding方法时,只能表示出子类别,不能对子类别的数值进行量化表示。原始数据是根据每一起交通事故进行记录的,本文的目标是对某段时间周期内的事故量进行预测。

      表 1  特征取值类型及子标签数量

      特征名称取值类型子标签数
      事故数数值类型/
      死亡人数数值类型/
      涉事的车辆数数值类型/
      事故严重程度离散类型3
      道路等级离散类型6
      道路类型离散类型8
      速度限制离散类型6
      光线条件离散类型7
      天气状况离散类型9
      路面条件离散类型5
      城市或农村地区离散类型3
      现场是否出现警察离散类型4
      驾驶员性别离散类型3
      驾驶员年龄段离散类型12
      特征子标签数合计/66

      本文以天为时间单位,建立起每个离散类别特征子标签与事故数据的映射关系。对数值类型的特征处理是通过对每天的数据进行统计求和操作。表2为2005年1月1日道路类别的不同子标签与3类事故数据所建立的映射关系。

      表 2  道路类别子标签映射示例

      日期编码道路类别子标签事故数死亡人数涉事车辆数
      2005/1/11环状交叉路口 (roundabout)111
      2005/1/16不分隔车路 (single carriageway)597
      2005/1/12单行道 (one way street)空值空值空值
      2005/1/13双线车道 (dual carriageway)空值空值空值
      2005/1/17通往高速公路之交流道 (slip road)空值空值空值
      2005/1/19未知 (unknown)空值空值空值
      2005/1/112单向街/支路 (one way street/slip road)空值空值空值
      2005/1/1−1数据丢失或超出范围 (data missing or out of range)空值空值空值

      表1中,特征道路类别的子标签有8种。表2中,2005年1月1日统计结果显示,特征道路类别出现了两种子标签,另外6种子标签为空值。使用上述方法,统计出了2005−2015年间4 017天的离散特征的66个子标签的映射关系。最终的输入特征为66个子标签的映射结果和目标事故数据的上一个时间周期的历史值。

    • 交通事故的时间空间稀疏性导致了经过映射的离散特征产生了大量空值,需要进行空值处理。

      零值填充方法:在模型学习过程中,更容易学习到导致事故发生的高权重特征。均值填充方法:在风险防范角度考虑的更周全,虽然没有发生事故,但事故的风险始终存在。为了更好地选择出空值处理方法,本文使用零值填充和均值填充两类方法进行对比实验。

    • 一个过程随时间的演变是人口的变化、城市化和机动化的过程、医学的进步、道路的改善、更安全的车辆、对风险以及其他社会规范态度的变化等[19]。所以,本文利用时间序列中的周期关系,在传统的建模方法基础上,提出了周期时序关系(last_period)和多元周期时序关系(merge_period)建模方法。

      1) 传统建模方法(one_by_one):使用第t−1天的数据作为输入特征,对第t天的目标数据进行预测。

      2) 周期时序关系建模方法(last_period):利用数据中的周期性规律建模,使用第t−(period)天的数据,预测第t天的目标数据。

      3) 多元周期时序关系建模方法(merge_period):使用第t−1天、第t−(period)天的数据作为输入特征,预测第t天的目标数据。

      本文使用年作为时间周期,来描绘相似的季节性环境特性;使用星期作为时间周期,描绘人们的工作生活规律特性。构造了last_week、last_year、merge_week、merge_year共4类数据。

      因为预测目标无法验证,在构造数据时需要剔除最后一个时间周期的数据记录,由于平、闰年的问题,数据存在缺失的情况。如2008年2月29日的上一年不存在2007年2月29日,本文使用相邻两天的平均值来填充。last_year类别数据中,填充了2007年2月29日、2011年2月29日的两条记录。对merge_year类别数据,填充了2009年2月29日、2013年2月29日的两条记录。以星期作为时间周期不存在缺失的情况,可以直接使用第t−7天的数据预测第t天的数据。

      最终利用不同的建模方法,分别对事故数(accident)、死亡人数(casualties)、涉事的车辆数(vehicles)3组目标特征构建了15组实验数据。由于空值处理分别使用了零值填充和均值填充,所以本文的30组实验数据、数据集的信息如表3所示。

      表 3  数据集信息描述

      数据类别记录特征数预测目标
      one_by_one4 01767事故数
      4 01767死亡人数
      4 01767涉事的车辆数
      last_week4 01067事故数
      4 01067死亡人数
      4 01067涉事的车辆数
      last_year3 65567事故数
      3 65567死亡人数
      3 65567涉事的车辆数
      merge_week4 010134事故数
      4 010134死亡人数
      4 010134涉事的车辆数
      merge_year3 655134事故数
      3 655134死亡人数
      3 655134涉事的车辆数
    • $$L(\phi ) = \sum\limits_i {l({{\hat y}_i},{y_i})} + \sum\limits_k {\varOmega ({f_k})} $$ (6)
      $$\varOmega (f) = \gamma T + \frac{1}{2}\lambda {\left\| \omega \right\|^2}$$ (7)

      式中,L是一个可微凸损失函数,用来度量预测值I和数据中真实预测目标值yi之间的差异;${\hat y_i} $代表树模型得到的预测目标值;l表示对(yi${\hat y_i} $)计算损失函数;Ω(fk)表示第k个树函数的惩罚项;Ω(f)代表惩罚项的详细表示,惩罚了模型的复杂性,平滑处理学习权重,可以避免过拟合;λγ是超参数,用于控制正则化程度;T代表f这个树函数的叶子数;ω为叶子对应的权重;||ω||2代表L2范数,通过权重的平方和来实现正则化。

    • 模型的超参主要包括:学习率、估计器个数、树的最大深度、样本内部分裂节点数、叶子节点所需的最小样本及损失函数。

      本文利用GridResearchCV在训练集上自动寻找最优超参。设定学习率分别为0.2、0.1、0.05。样本内部分裂节点和叶子节点所需的最小样本都设置为1~10之间,树的最大深度为1~15之间,估计器的个数取10~150之间10的倍数。表4为模型使用不同建模方法,零值填充和均值填充寻找到的超参数据表。

      表 4  模型超参信息表

      建模方法数据(零值填充/均值填充)
      学习率最大
      深度
      最小
      样本
      分裂
      节点
      估计
      器数
      one_by_one_accident0.1/0.12/21/12/2140/140
      one_by_one_casualties0.2/0.13/21/13/2130/140
      one_by_one_vehicles0.1/0.12/21/15/4100/120
      last_week_accident0.1/0.22/21/13/6130/130
      last_week_casualties0.2/0.12/21/12/2130/130
      last_week_vehicles0.1/0.22/21/12/2120/140
      last_year_accident0.2/0.22/21/14/2130/100
      last_year_casualties0.2/0.29/21/13/290/130
      last_year_vehicles0.2/0.12/21/12/290/110
      merge_year_accident0.2/0.13/21/13/340/140
      merge_year_casualties0.2/0.22/21/13/380/100
      merge_year_vehicles0.2/0.12/21/12/2110/120
      merge_week_accident0.1/0.12/21/13/5110/110
      merge_week_casualties0.2/0.22/21/13/290/100
      merge_week_vehicles0.2/0.12/21/12/640/140
    • 本文实验的个人电脑,CPU:AMD Ryzen 2600X Six-Core Processor@3.60 GHz,内存为16 GB,开发环境为python 3.5语言的PyCharm集成开发工具,使用skit-learn提供的GBRT模型。

    • 性能评价指标误差率公式如下:本文使用均方根对数误差(rmsle)和决定系数(R-square)来衡量模型的拟合能力。均方根对数误差取值越小,模型的拟合性能越好。决定系数的值越接近1,变量对预测值的解释能力越强。

      均方根对数误差和决定系数公式分别为:

      $${\rm{rmsle}} = \sqrt {\frac{1}{{n\displaystyle\sum\limits_{i = 1}^n {{{(\log ({Y_0} + 1) - \log ({Y_{\rm{P}}} + 1))}^2}} }}} $$ (8)
      $$R {\text{-}}{\rm{square}} = 1 - \frac{{\displaystyle\sum\limits_{i = 1}^n {{{({Y_0} - {Y_{\rm{P}}})}^2}} }}{{\displaystyle\sum\limits_{i = 1}^n {{{({Y_0} - {Y_{{\rm{mean}}}})}^2}} }}$$ (9)

      式中,Y0表示真实预测目标值;YP表示模型预测目标值;Ymean表示真实预测目标值的平均数。

    • 对上述30组数据,本文采用训练集与测试集7∶3的比例进行划分,再使用GBRT模型对训练集进行拟合,最后对测试集的预测性能进行分析。

      对比实验为比较离散特征标签映射中的空值在两类填充方法下的实验结果。表5为模型在零值填充和均值填充方法下的测试集实验结果。

      表 5  不同建模方法在测试集上预测结果表

      建模方法零值填充比较结果均值填充
      rmsleR-squarermsleR-square
      one_by_one_accident0.010 694 40.989 643 6<0.009 400 10.990 108 2
      one_by_one_casualties0.076 180 10.142 487 8<0.069 511 20.177 686 4
      one_by_one_vehicles0.056 437 00.302 941 7<0.055 705 50.318 687 7
      last_week_accident0.002 954 90.999 589 9>0.003 012 20.999 588 6
      last_week_casualties0.019 512 60.906 438 4>0.023 288 00.889 549 4
      last_week_vehicles0.018 403 90.944 819 6<0.016 416 40.958 028 6
      last_year_accident0.005 764 70.999 830 0<0.007 508 60.999 861 5
      last_year_casualties0.011 052 80.999 984 6<0.010 696 40.999 340 0
      last_year_vehicles0.033 843 50.998 134 4<0.027 991 20.9987472
      merge_year_accident0.007 009 00.999 965 4>0.009 347 40.999 854 4
      merge_year_casualties0.024 341 10.997 904 2<0.013 775 00.999 091 9
      merge_year_vehicles0.033 320 10.998 114 0<0.033 062 00.997 947 4
      merge_week_accident0.003 047 00.999 618 1>0.003 068 30.999 578 0
      merge_week_casualties0.027 697 00.851 847 8<0.018 820 90.944 924 2
      merge_week_vehicles0.038 087 20.926 162 4<0.023 322 30.896 847 1

      表5中的实验结果显示,one_by_one类型数据使用均值填空的方法整体好于零值填充方法。Last和merge类型数据中均值填充方法的模型效果较好,因此本文使用均值填充方法处理离散特征标签映射中的空值。

      表5中3组预测目标的实验结果显示,事故数的预测精度整体比死亡人数及涉事的车辆数的预测效果明显要高,rmsle误差更小,R-square的值更接近1,变量对预测值的解释能力强。说明模型更容易拟合到交通事故的发生频率,但表征交通事故危害程度的死亡人数和涉事车辆数更难预测。

      比较不同建模方法的预测结果,本文提出的last_period和merge_period方法比传统的one_by_one建模方法预测精度要高。其中传统建模方法在死亡人数和涉事车辆数的预测误差分别为0.069 5和0.055 7,R-square的值为0.177 6和0.318 6,说明传统建模方法在死亡人数和车辆数的预测能力较差。last_week建模方法在事故数和涉事车辆数的预测结果最佳,last_year建模方法对死亡人数的预测结果最佳。merge_period所考虑的因素更加全面,但实验结果却没有获得最佳的预测结果,本文考虑,该方法增加的特征表征是不同时间的数据,特征类别存在冗余。

    • 本文挖掘了数据中的时间关系进行建模,提出基于时间序列关系的GBRT的交通事故预测模型。较传统方法在预测精度上有一定的提升,模型对道路交通安全水平的趋势具有很好的拟合能力。交通管理部门在制定决策、人员调度的过程中能从本文工作中得到有益的参考信息。另一方面,本文提出的时序建模方法可以在相似建模问题上进行推广,为同类型的预测工作提供了一种新的建模思路。

      进一步的工作,将测试月、季度等更多类别的时间序列关系和更多的组合方式的merge_period建模方法;将测试更大数据量下,merge_period建模方法的预测效果。

参考文献 (19)

目录

    /

    返回文章
    返回