留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于深度随机森林算法的短期用户负荷预测—以金华地区为例

胡兆龙 胡俊建 彭浩 韩建民 朱响斌 丁智国

胡兆龙, 胡俊建, 彭浩, 韩建民, 朱响斌, 丁智国. 基于深度随机森林算法的短期用户负荷预测—以金华地区为例[J]. 电子科技大学学报, 2023, 52(3): 430-437. doi: 10.12178/1001-0548.2022172
引用本文: 胡兆龙, 胡俊建, 彭浩, 韩建民, 朱响斌, 丁智国. 基于深度随机森林算法的短期用户负荷预测—以金华地区为例[J]. 电子科技大学学报, 2023, 52(3): 430-437. doi: 10.12178/1001-0548.2022172
HU Zhaolong, HU Junjian, PENG Hao, HAN Jianmin, ZHU Xiangbin, DING Zhiguo. Short-Term User Load Forecasting Based on Deep Random Forest: Take Jinhua City as an Example[J]. Journal of University of Electronic Science and Technology of China, 2023, 52(3): 430-437. doi: 10.12178/1001-0548.2022172
Citation: HU Zhaolong, HU Junjian, PENG Hao, HAN Jianmin, ZHU Xiangbin, DING Zhiguo. Short-Term User Load Forecasting Based on Deep Random Forest: Take Jinhua City as an Example[J]. Journal of University of Electronic Science and Technology of China, 2023, 52(3): 430-437. doi: 10.12178/1001-0548.2022172

基于深度随机森林算法的短期用户负荷预测—以金华地区为例

doi: 10.12178/1001-0548.2022172
基金项目: 国家自然科学基金(62103375, 62072412);浙江省哲学社会科学规划重点项目(22NDJC009Z);浙江省自然科学基金(LY23F030003)
详细信息
    作者简介:

    胡兆龙(1987 – ),男,博士,副教授,主要从事复杂网络和数据挖掘方面的研究

    通讯作者: 胡兆龙,E-mail:huzhaolong@zjnu.edu.cn
  • 中图分类号: TP39

Short-Term User Load Forecasting Based on Deep Random Forest: Take Jinhua City as an Example

  • 摘要: 通过网络爬虫获取天气数据,并结合金华市用户负荷数据,采用深度随机森林算法对用户负荷进行短期预测。借助4种评价指标,通过对比支持向量回归算法、K近邻算、贝叶斯岭回归算法、随机森林算法以及多个深度神经网络算法,发现深度随机森林算法预测效果最佳,支持向量回归算法次之,而深度神经网络算法在该数据集上表现一般。
  • 1  不同C值评价指标的变化图

    2  不同$ \varepsilon $值评价指标变化图

    图  3  叶结点包含最小样本值评价指标变化

    图  4  不同激活函数下各神经网络的评价指标

    图  5  两个用户的多种算法的负荷预测结果

    表  1  随机森林评价指标

    模型名称RMSEMAER2MAPE
    随机森林3.1232.5590.90118.502
    深度随机森林2.8181.8780.91914.390
    下载: 导出CSV

    表  2  不同激活函数下各神经网络评价指标

    模型名称激活函数RMSEMAER2MAPE
    BPSigmoid4.2923.6180.81226.271
    BPRelu3.5432.8100.87221.928
    BPElu3.4892.8000.87619.378
    BPTanh4.9784.0740.74740.964
    LSTMSigmoid4.9593.9820.74927.632
    LSTMRelu4.2003.4410.82025.540
    LSTMElu3.6472.8500.86421.157
    LSTMTanh6.1004.4860.62126.361
    双向LSTMSigmoid5.2294.0140.72124.310
    双向LSTMRelu4.9643.6810.74923.726
    双向LSTMElu3.4582.7470.87823.541
    双向LSTMTanh6.1024.6790.62126.958
    下载: 导出CSV

    表  3  4种评价指标下,各类机器学习算法预测结果

    模型名称RMSEMAER2MAPE时长/s
    SVM回归2.9552.1520.91117.7154.8
    KNN算法3.2982.7280.88920.5310.3
    Bayes岭回归4.3063.5610.81123.1860.1
    随机森林3.1232.5590.90118.5022.2
    深度随机森林2.8181.8780.91914.3904.7
    BP神经网络3.4892.8000.87619.3788.4
    LSTM3.6472.850.86421.15721.4
    双向LSTM3.4582.7470.87823.54173.1
    下载: 导出CSV

    表  4  后3天和后5天各类机器学习算法预测结果

    模型名称后3天;后5天
    RMSEMAER2MAPE
    SVR回归4.060;4.9382.779;3.4260.861;0.79435.653;54.923
    Knn算法4.600;4.3923.344;3.3490.821;0.83739.541;52.813
    Bayes岭回归5.539;5.8193.968;4.2320.741;0.71552.073;75.965
    随机森林4.398;4.8593.194;3.6120.837;0.80145.540;75.610
    深度随机森林4.0468;4.4482.846;3.2060.862;0.83330.724;46.691
    BP神经网络4.787;6.9983.288;4.9240.807;0.58740.51;65.081
    LSTM7.472;9.6145.804;6.8910.761;0.72653.801;62.126
    双向LSTM5.505;6.3633.599;4.5580.716;0.65947.558;78.369
    下载: 导出CSV
  • [1] 李海, 刘凡, 李际. 2020年我国电力发展形势与2021展望[J]. 中国能源, 2021, 3: 24-29. doi:  10.3969/j.issn.1003-2355.2021.03.004

    LI H, LIU F, LI J. China's electric power development situation in 2020 and prospects for 2021[J]. Energy of China, 2021, 3: 24-29. doi:  10.3969/j.issn.1003-2355.2021.03.004
    [2] 肖国全, 王春, 张福伟. 电力负荷预测[M]. 北京: 中国电力出版社, 2001.

    XIAO G Q, WANG C, ZHANG F W. Electric load forecasting[M]. Beijing: China Electric Power Press, 2001.
    [3] 曹安照, 田丽. 基于RBF神经网络的短期电力负荷预测[J]. 电子科技大学学报, 2006, 35(4): 507-509. doi:  10.3969/j.issn.1001-0548.2006.04.023

    CAO A Z, TIAN L. Short-Term electric power load forecasting based on neural network model[J]. Journal of University of Electronic Science and Technology of China, 2006, 35(4): 507-509. doi:  10.3969/j.issn.1001-0548.2006.04.023
    [4] 钱卫华, 姚建刚, 龙立波, 等. 基于短期相关性和负荷增长的中长期负荷预测[J]. 电力系统自动化, 2007, 31(11): 59-64.

    QIAN W H, YAO J G, LONG L B, et al. Short-Term correlation and annual growth based mid-long term load forecasting[J]. Automation of Electric Power Systems, 2007, 31(11): 59-64.
    [5] 徐晴, 周超, 赵双双, 等. 基于机器学习的短期电力负荷预测方法研究[J]. 电测与仪表, 2019, 56(23): 70-75.

    XU Q, ZHOU C, ZHAO S S, et al. Research on short-term power load forecasting method based on machine learning[J]. Electrical Measurement & Instrumentation, 2019, 56(23): 70-75.
    [6] LEE J Y, CHO Y S. National-Scale electricity peak load forecasting: Traditional, machine learning, or hybrid model?[J]. Energy Part D, 2022, 239: 122366.
    [7] 李闯, 孔祥玉, 朱石剑, 等. 能源互联环境下考虑需求响应的区域电网短期负荷预测[J]. 电力系统自动化, 2021, 45(1): 71-78.

    LI C, KONG X Y, ZHU S J, et al. Short-Term load forecasting of regional power grid considering demand response in energy interconnection environment[J]. Automation of Electric Power Systems, 2021, 45(1): 71-78.
    [8] 王勇, 黄国兴, 彭道刚. 带反馈的多元线性回归法在电力负荷预测中的应用[J]. 计算机应用与软件, 2008, 25(1): 82-84. doi:  10.3969/j.issn.1000-386X.2008.01.031

    WANG Y, HUANG G X, PENG D G. Application of multiple linear-feedback regression analysis to in electric load forecasting[J]. Computer Applications and Software, 2008, 25(1): 82-84. doi:  10.3969/j.issn.1000-386X.2008.01.031
    [9] RAMANATHAN R, ENGLE R, GRANGER C W J, et al. Short-Run forecasts of electricity loads and peaks[J]. International Journal of Forecasting, 1997, 13(2): 161-174. doi:  10.1016/S0169-2070(97)00015-0
    [10] 李东东, 覃子珊, 林顺富, 等. 基于混沌时间序列法的微网短期负荷预测[J]. 电力系统及其自动化学报, 2015, 27(5): 14-18. doi:  10.3969/j.issn.1003-8930.2015.05.03

    LI D D, QIN Z S, LIN S F, et al. Short-Term load forecasting for microgrid based on method of chaotic time series[J]. Proceedings of the CSU-EPSA, 2015, 27(5): 14-18. doi:  10.3969/j.issn.1003-8930.2015.05.03
    [11] BENTO P M R, POMBO J A N, CALADO M R A, et al. Stacking ensemble methodology using deep learning and ARIMA models for short-term load forecasting[J]. Applied Mathematical Sciences, 2021, 14(21): 7378.
    [12] ALBERG D, LAST M. Short-Term load forecasting in smart meters with sliding window-based ARIMA algorithms[J]. Vietnam Journal of Computer Science, 2018, 5: 241-249. doi:  10.1007/s40595-018-0119-7
    [13] 张辰睿. 基于机器学习的短期电力负荷预测和负荷曲线聚类研究[D]. 杭州: 浙江大学, 2021.

    ZHANG C R. Research on short-term power load forecasting and load curve clustering based on machine learning[D]. Hangzhou: Zhejiang University, 2021.
    [14] 吴潇雨, 和敬涵, 张沛, 等. 基于灰色投影改进随机森林算法的电力系统短期负荷预测[J]. 电力系统自动化, 2015(12): 50-55. doi:  10.7500/AEPS20140916005

    WU X Y, HE J H, ZHANG P, et al. Power system short-term load forecasting based on improved random forest with grey relation projection[J]. Automation of Electric Power Systems, 2015(12): 50-55. doi:  10.7500/AEPS20140916005
    [15] ZHOU Z H, FENG J. Deep forest[J]. National Science Review, 2019, 6(1): 74-86. doi:  10.1093/nsr/nwy108
    [16] 陈吕鹏, 殷林飞, 余涛, 等. 基于深度森林算法的电力系统短期负荷预测[J]. 电力建设, 2018, 39(11): 42-50.

    CHEN L P, YIN L F, YU T, et al. Short-Term power load forecasting based on deep forest algorithm[J]. Electric Power Construction, 2018, 39(11): 42-50.
    [17] SEUNGHYOUNG R, NOH J, KIM H. Deep neural network based demand side short term load forecasting[J]. Energies, 2017, 10(1): 3.
    [18] KONG W, DONG Z Y, JIA Y, et al. Short-Term residential load forecasting based on LSTM recurrent neural network[J]. IEEE Transactions on Smart Grid, 2019, 10(1): 841-851. doi:  10.1109/TSG.2017.2753802
    [19] LIU F, DONG T, HOU T, et al. A hybrid short-term load forecasting model based on improved fuzzy C-Means clustering, random forest and deep neural networks[J]. IEEE Access, 2021, 9: 59754-59765. doi:  10.1109/ACCESS.2021.3063123
    [20] MOHAMED M, SHADY S R, INES C, et al. A novel stacked generalization ensemble-based hybrid LGBM-XGBMLP model for short-term load forecasting[J]. Energy, 2021, 214: 118874. doi:  10.1016/j.energy.2020.118874
    [21] SHARIFF S M. Autoregressive integrated moving average (ARIMA) and long short-term memory (LSTM) network models for forecasting energy consumptions[J]. European Journal of Electrical Engineering and Computer Science, 2022, 6(3): 7-10. doi:  10.24018/ejece.2022.6.3.435
    [22] ZHOU D, MA S, HAO J, et al. An electricity load forecasting model for integrated energy system based on BiGAN and transfer learning[J]. Energy Reports, 2020, 6: 3446-3461. doi:  10.1016/j.egyr.2020.12.010
  • [1] 李文振, 周雨薇, 刘文雯, 黄健.  治疗性抗体人源度评价与人源化的计算方法研究进展 . 电子科技大学学报, 2024, 53(): 1-6. doi: 10.12178/1001-0548.2023216
    [2] 丁璟韬, 徐丰力, 孙浩, 严钢, 胡延庆, 李勇, 周涛.  人工智能驱动的复杂系统研究前沿 . 电子科技大学学报, 2024, 53(3): 455-461. doi: 10.12178/1001-0548.2023257
    [3] 张鹏, 秦瑞青, 刘润东, 兰月新, 韦昱妃.  恶意社交机器人检测方法综述 . 电子科技大学学报, 2024, 53(): 1-11. doi: 10.12178/1001-0548.2023229
    [4] 李西, 姜孟.  机器学习在帕金森病诊断中的应用研究 . 电子科技大学学报, 2024, 53(2): 315-320. doi: 10.12178/1001-0548.2023180
    [5] 刘杰, 金勇杰, 田明.  基于VMD和TCN的多尺度短期电力负荷预测 . 电子科技大学学报, 2022, 51(4): 550-557. doi: 10.12178/1001-0548.2021347
    [6] 张平, 吴念悦, 张浩天, 李功利, 刘加林, 李科.  心外科手术患者重症监护室住院时间预测模型研究 . 电子科技大学学报, 2022, 51(4): 500-505. doi: 10.12178/1001-0548.2022004
    [7] 冯小兵, 曾宇怀, 吴泽鹏, 杭文, 魏书精, 汤龙坤, 胡海波.  基于卫星多光谱的广东亚热带森林FMC遥感反演 . 电子科技大学学报, 2022, 51(3): 432-437. doi: 10.12178/1001-0548.2021361
    [8] 周丰丰, 牛甲昱.  细胞穿膜肽识别问题的多特征融合卷积网络预测算法 . 电子科技大学学报, 2022, 51(4): 494-499. doi: 10.12178/1001-0548.2021391
    [9] 刘明友, 刘红美, 张招方, 朱映雪, 黄健.  抗微生物肽机器学习预测算法综述 . 电子科技大学学报, 2022, 51(6): 830-840. doi: 10.12178/1001-0548.2022188
    [10] 苏伟, 孙自杰, 岳鹏, 林昊.  利用计算生物学方法识别原核启动子的研究进展 . 电子科技大学学报, 2021, 50(5): 667-675. doi: 10.12178/1001-0548.2021201
    [11] AnthonyMackitz DZISOO, 任丽萍, 谢诗扬, 周雨薇, 黄健.  治疗性抗体可开发性评估研究进展 . 电子科技大学学报, 2021, 50(3): 476-480. doi: 10.12178/1001-0548.2021060
    [12] 张仕斌, 黄曦, 昌燕, 闫丽丽, 程稳.  大数据环境下量子机器学习的研究进展及发展趋势 . 电子科技大学学报, 2021, 50(6): 802-819. doi: 10.12178/1001-0548.2021332
    [13] 吴佳, 陈森朋, 陈修云, 周瑞.  基于强化学习的模型选择和超参数优化 . 电子科技大学学报, 2020, 49(2): 255-261. doi: 10.12178/1001-0548.2018279
    [14] 杨旺功, 淮永建, 张福泉.  基于Gabor及深度神经网络的葡萄种子分类 . 电子科技大学学报, 2020, 49(1): 131-138. doi: 10.12178/1001-0548.2019164
    [15] 张亮亮, 唐有, 张翌维, 王新安.  针对密码芯片数据搬移能量曲线的机器学习攻击 . 电子科技大学学报, 2019, 48(3): 415-419. doi: 10.3969/j.issn.1001-0548.2019.03.017
    [16] 陈启明, 黄瑞.  下肢外骨骼机器人意图识别算法研究 . 电子科技大学学报, 2018, 47(3): 330-336. doi: 10.3969/j.issn.1001-0548.2018.03.002
    [17] 何海江.  基于排序学习算法的软件错误定位模型研究 . 电子科技大学学报, 2017, 46(3): 577-582. doi: 10.3969/j.issn.1001-0548.2017.03.016
    [18] 谭颖, 张涛, 谭睿, 沈小涛, 校景中.  基于小波变换与SVM的ADHD病人分类 . 电子科技大学学报, 2015, 44(5): 789-794. doi: 10.3969/j.issn.1001-0548.2015.05.025
    [19] 柏骏, 夏靖波, 鹿传国, 李明辉, 任高明.  基于RVM的网络流量分类研究 . 电子科技大学学报, 2014, 43(2): 241-246. doi: 10.3969/j.issn.1001-0548.2014.02.016
    [20] 曹安照, 田丽.  基于RBF神经网络的短期电力负荷预测 . 电子科技大学学报, 2006, 35(4): 507-509.
  • 加载中
图(7) / 表(4)
计量
  • 文章访问数:  4751
  • HTML全文浏览量:  1633
  • PDF下载量:  101
  • 被引次数: 0
出版历程
  • 收稿日期:  2022-06-06
  • 修回日期:  2022-10-27
  • 录用日期:  2023-02-01
  • 网络出版日期:  2023-05-26
  • 刊出日期:  2023-05-28

基于深度随机森林算法的短期用户负荷预测—以金华地区为例

doi: 10.12178/1001-0548.2022172
    基金项目:  国家自然科学基金(62103375, 62072412);浙江省哲学社会科学规划重点项目(22NDJC009Z);浙江省自然科学基金(LY23F030003)
    作者简介:

    胡兆龙(1987 – ),男,博士,副教授,主要从事复杂网络和数据挖掘方面的研究

    通讯作者: 胡兆龙,E-mail:huzhaolong@zjnu.edu.cn
  • 中图分类号: TP39

摘要: 通过网络爬虫获取天气数据,并结合金华市用户负荷数据,采用深度随机森林算法对用户负荷进行短期预测。借助4种评价指标,通过对比支持向量回归算法、K近邻算、贝叶斯岭回归算法、随机森林算法以及多个深度神经网络算法,发现深度随机森林算法预测效果最佳,支持向量回归算法次之,而深度神经网络算法在该数据集上表现一般。

English Abstract

胡兆龙, 胡俊建, 彭浩, 韩建民, 朱响斌, 丁智国. 基于深度随机森林算法的短期用户负荷预测—以金华地区为例[J]. 电子科技大学学报, 2023, 52(3): 430-437. doi: 10.12178/1001-0548.2022172
引用本文: 胡兆龙, 胡俊建, 彭浩, 韩建民, 朱响斌, 丁智国. 基于深度随机森林算法的短期用户负荷预测—以金华地区为例[J]. 电子科技大学学报, 2023, 52(3): 430-437. doi: 10.12178/1001-0548.2022172
HU Zhaolong, HU Junjian, PENG Hao, HAN Jianmin, ZHU Xiangbin, DING Zhiguo. Short-Term User Load Forecasting Based on Deep Random Forest: Take Jinhua City as an Example[J]. Journal of University of Electronic Science and Technology of China, 2023, 52(3): 430-437. doi: 10.12178/1001-0548.2022172
Citation: HU Zhaolong, HU Junjian, PENG Hao, HAN Jianmin, ZHU Xiangbin, DING Zhiguo. Short-Term User Load Forecasting Based on Deep Random Forest: Take Jinhua City as an Example[J]. Journal of University of Electronic Science and Technology of China, 2023, 52(3): 430-437. doi: 10.12178/1001-0548.2022172
  • 随着居民生活水平的提高,用户对于电力供应的稳定性和吞吐量需求越来越高[1]。快速增长的用电需求带来的是复杂的电力资源调度和管理问题,而准确预测用户负荷对能源优化调度和管理有着非常重要的作用。

    用户负荷预测,是指从已知的电力系统、经济、社会、气象等情况出发,通过对历史数据的分析和研究,考虑不确定性因素的影响,对未来用户负荷做出预先估计和推测[2-3]。用户负荷预测包括长期、中期和短期预测,一般将几小时到一周内的预测称为短期预测,中长期预测是指数周到未来几年这样较长时间的用户负荷预测[4]。短期负荷预测一直是研究热点,随着科技的发展以及用户用电需求的增加,短期用户负荷预测研究方法已从传统的回归过渡到了深度学习,预测精度已实现了显著提升[5-7],本文同样聚焦于短期负荷预测。

    传统用户负荷预测方法主要为线性回归和时间序列回归分析法。线性回归方法通过分析大量的相关变量和负荷数据的对应关系,并建立相应的数学模型得到相关变量和负荷数据的内在联系,从而对负荷数据进行预测[8]。该方法在确定的参数下可以快速地对负荷数据进行预测,缺点是难以确定一个精准的模型描述相关变量和负荷数据之间的关系[9]。时间序列回归方法将用户历史负荷数据看作一个与时间有关的变量,构建回归模型来预测未来负荷数据的趋势,如AR,MA,ARIMA等回归模型[10-12]

    现代智能优化算法包括传统的机器学习算法和深度学习算法。传统机器学习算法可以解决非线性和高维中的分类和回归问题[13],如支持向量机、决策树、贝叶斯算法、K近邻算法(K-nearest neighbors, KNN)、随机森林算法。其中森林算法通过构造多个决策树对同一个问题进行决策,并对样本和特征进行随机的选取,研究发现随机森林模型呈现出更准确的预测效果[14]

    深度随机森林实际上是级联过程,即利用前一层次预测的结果和输入特征相连接构成新的输入特征,可以达到和神经网络同等优秀的模型,并且计算开销小、超参数少、效率高[15]。文献[16]发现深度森林算法的负荷预测结果比传统机器学习算法预测结果更准,但并没有深入研究和对比其他深度学习算法的预测结果,同时没有分析参数对预测结果的影响。

    与深度随机森林网络模型不同,深度神经网络模型主要通过模拟人脑神经元的工作过程建立多层网络模型,通过对数据的学习进行预测。神经网络具有很强的学习能力和容错率,但需要大量的数据和算力才能训练好一个模型。文献[17]利用深度神经网络对用户短期负荷进行预测,研究结果表明深度神经网络比浅层神经网络和传统机器学习算法预测得更准确。文献[18]发现长短记忆循环神经网络(long short-term memory, LSTM)比传统机器学习算法预测得更准确。

    此外,学者们还相继提出了结合多种算法的混合模型,如基于随机森林和LSTM算法的混合算法[19]、LGBM-XGB-MLP混合算法[20]以及混合ARIMA回归模型和LSTM循环神经网络模型算法[21]。尽管混合算法通常表现出较好的预测结果,但训练时间较长。大量研究揭示深度森林网络不仅训练时间短,同时预测效果也很好。虽然已有研究发现深度森林算法比传统机器学习算法能更准确地预测用户负荷,但是否比其他深度学习算法预测得更准确尚不清楚,同时也没有深入分析参数的影响[16]

    本文通过网络爬虫获取天气数据,并与2020年金华市企业负荷数据相结合,对用户负荷进行预测。采用深度随机森林算法,不仅与传统机器学习算法进行对比,也与多个深度学习算法进行了对比,同时也分析了各算法的参数对预测结果的影响。

    • 用户负荷数据为金华市中小企业2020年1月1日—2020年12月31日全年366天的数据,数据包括供电单位、供电所、户名、用户地址、台区、终端局号、是否高危用户、受电容量(kVA)、电压等级(kV)以及每小时的功率(kW)。用户数量每天约3500户,找出全年都在数据集中的用户用于研究和预测用户负荷。

      用户负荷与天气之间存在较强的关联,但上述数据中并不包含天气数据。为此,通过python网络爬虫,获取了相应的天气数据。天气数据包括日期、温度、天气、风力风向、空气质量信息。

    • 1) 天气数据预处理。把最高温和最低温去掉摄氏度符号得到数值数据。天气、风力风向、空气质量指数3个特征,根据类别进行数值化处理。如天气有3类,那么将它们分别转换为0,1,2。同理,风力风向有两类,分别转换为0和1。空气质量指数只有一类,用数值0代替。

      2) 用户负荷数据预处理。找出全年都在数据集中的用户,最后剩2449个。对于缺失的用户功率/负荷数据,采用后一个小时的数据进行填充。因为供电所、用户地址、台区、终端局号对预测结果没有影响,因此仅利用是否高危用户、受电容量、电压等级以及每小时的功率/负荷数据。

      考虑到数据中数值的差异性,对数据进行标准化处理:

      $$ {\bar x_{ij}} = \frac{{{x_{ij}} - \mu ({x_i})}}{{\sigma ({x_i})}} $$ (1)

      式中,$ {x_{ij}} $代表第$ i $个特征的第$ j $个值;$ {\bar x_{ij}} $为标准化后的值;$ \mu ({x_i}) $$ \sigma ({x_i}) $分别为第$ i $个特征$ {x_i} $的均值和标准差。

    • 负荷预测误差指的是用户负荷的真实值和预测模型得到的预测值之间的差值,为了评估预测准确度,本文使用4种常用的回归预测评估指标:RMSE(均方根误差)、MAE(平均绝对误差)、R2(决定系数)、MAPE(平均绝对百分误差)。

      1) RMSE用于衡量真实值和预测值之间的偏差,受异常值的影响较大,其公式如下:

      $$ {\text{RMSE}} = \sqrt {\frac{{\text{1}}}{n}\sum\limits_{i = 1}^n {{{({y_i} - {{\hat y}_i})}^2}} } $$ (2)

      2) MAE表示真实值和预测值的绝对误差的平均值,其公式如下:

      $$ {\text{MAE}} = \frac{1}{n}\sum\limits_{i = 1}^n {|{y_i} - {{\hat y}_i}|} $$ (3)

      3) R2表示回归模型的拟合程度,反应了预测值有多少百分比能用输入值描述,该值为0~1之间的数值,值越大拟合程度越好:

      $$ \bar y = \frac{1}{n}\sum\limits_{i = 1}^n {{y_i}} $$ (4)
      $$ {\text{S}}{{\text{S}}_{{\text{tot}}}} = \sum\limits_{i = 1}^n {{{({y_i} - \bar y)}^2}} $$ (5)
      $$ {\text{S}}{{\text{S}}_{{\text{res}}}} = \sum\limits_{i = 1}^n {{{(y{}_i - {{\hat y}_i})}^2}} $$ (6)
      $$ {{{R}}^2} \equiv 1 - \frac{{{\text{S}}{{\text{S}}_{{\text{res}}}}}}{{{\text{S}}{{\text{S}}_{{\text{tot}}}}}} $$ (7)

      4) MAPE表示真实值与预测值误差的百分比:

      $$ {\text{MAPE}} = \frac{1}{n}\sum\limits_{i = 1}^n {\frac{{|{y_i} - {{\hat y}_i}|}}{{{y_i}}}} $$ (8)

      式中,n为样本数量;$ {y_i} $为真实值;$ {\hat y_i} $为预测值;$ \bar y $为样本真实值的平均值。RMSE、MAE对异常值敏感,通常使用R2来表示模型的拟合程度,采用MAPE来表示预测的误差,综合以上4个指标进行负荷预测误差的评价,更能体现模型的真实效果。

    • 将金华市天气数据和用户历史负荷数据相结合,对用户负荷进行预测。把用户前1天负荷数据和天气数据作为输入特征,将当天用户负荷作为输出值,即365天的数据用于训练,最后1天的数据用于测试。输入数据为天气数据、受电容量、电压等级,输出数据为用户每小时对应的用电负荷数据。由于爬取的天气数据没有每小时的信息,将这一天的天气数据复制24份,即每小时的天气数据一致,从而构造出相同维度的输入特征。

      为了对比深度随机森林算法的预测结果的准确度,本文引用几个经典的机器学习算法,包括SVM算法、KNN算法、Bayes算法、随机森林算法、以及BP和LSTM等深度神经网络算法。

      对于SVM回归算法,本文选取高斯核函数作为SVM中的核函数,高斯核函数在处理较高维度的问题上有优异表现,相比于其他核函数有更高的泛用性。图1显示了不同松弛变量C值评价指标的变化,图2显示了不同容忍偏差$ \varepsilon $值评价指标的变化。可以看出,当C值在100附近时4种评估指标预测效果几乎都达到最优,$ \varepsilon >$0.35时评价指标呈抖动下降或上升,在部分指标上甚至优于取0.35的情况,在$ \varepsilon< $0.35时明显差于取0.35的情况。通过研究不同松弛变量C值和不同容忍偏差$ \varepsilon $值评价指标的变化,发现选取C约为100,$ \varepsilon $值约为0.35时SVM算法表现出最优的预测结果,此时相应的4个指标值分别为RMSE=2.955,MAE=2.152,R2=0.911,MAPE=17.715。

      图  1  不同C值评价指标的变化图

      对于KNN算法,本文通过研究不同的参数k的用户负荷预测结果,发现k=6为最佳k参数取值,此时相应的4个指标值分别为RMSE=3.298,MAE=2.728,R2=0.899,MAPE=20.531。

      图  2  不同$ \varepsilon $值评价指标变化图

      对于贝叶斯岭回归算法,学习率参数$ \alpha $和正则化参数$ \lambda $采用默认值$ {10^{ - 6}} $,4个指标的预测结果分别为RMSE=4.306,MAE=3.561,R2=0.811,MAPE=23.186。

      深度神经网络以神经元为基本单元,深度随机森林以随机森林为基本单元,整体结构又采取神经网络的结构,不仅有随机森林算力成本低的优点,而且有神经网络强大的特征提取能力。

      本文分别利用随机森林和深度随机森林对用户负荷做出预测。首先设置随机森林内决策树的数量为200颗,改变叶子节点包含样本的最小数,预测结果如图3所示。

      基于随机森林的用户负荷预测,当超参数叶结点包含最小样本为25左右为最佳,设置深度随机森林每层两个,每个随机森林由100颗决策树构成,预测结果如表1所示。从表中看出深度随机森林预测结果相对更加准确。

      图  3  叶结点包含最小样本值评价指标变化

      表 1  随机森林评价指标

      模型名称RMSEMAER2MAPE
      随机森林3.1232.5590.90118.502
      深度随机森林2.8181.8780.91914.390

      为了对比其他深度学习算法的预测结果,分别采用深度BP神经网络、LSTM和双向LSTM循环神经网络对用户负荷进行预测。本文采取4层神经网络结构,包含一个输入层、两个隐藏层、一个输出层,其中隐藏层每层由64个神经元组成,并分别采取Sigmoid、Relu、Elu、Tanh作为激活函数进行对比,在前向传播时随机使用80%的神经元,防止神经网络出现过拟合的现象,以MSE作为损失函数,并采用adam函数优化器对每次训练进行优化,每次训练随机采用80%的训练集数据,共循环训练100次,不同激活函数下预测结果如图4所示,表2为相应的预测结果值。

      通过表2可以看出,LSTM在本实验的数据集上并没有表现出很好的预测效果,反而结构较为简单的BP神经网络表现更好。相比于其他激活函数,如Sigmoid函数和Tanh函数,当使用Elu激活函数时预测结果更准确。Sigmoid函数和Tanh函数属于软饱和函数,可能会出现梯度消失的现象,因此表现较差。尽管本文中LSTM预测用户负荷的表现不如BP,但采用双向LSTM激活函数为Elu时,除了MAPE较差外,其他指标都表现出了最好的预测性能。

      图  4  不同激活函数下各神经网络的评价指标

      表 2  不同激活函数下各神经网络评价指标

      模型名称激活函数RMSEMAER2MAPE
      BPSigmoid4.2923.6180.81226.271
      BPRelu3.5432.8100.87221.928
      BPElu3.4892.8000.87619.378
      BPTanh4.9784.0740.74740.964
      LSTMSigmoid4.9593.9820.74927.632
      LSTMRelu4.2003.4410.82025.540
      LSTMElu3.6472.8500.86421.157
      LSTMTanh6.1004.4860.62126.361
      双向LSTMSigmoid5.2294.0140.72124.310
      双向LSTMRelu4.9643.6810.74923.726
      双向LSTMElu3.4582.7470.87823.541
      双向LSTMTanh6.1024.6790.62126.958

      最后,整体对比了上述几种机器学习算法的预测结果,如表3所示。可以看出,在均方根误差上仅有Bayes岭回归模型有较大误差,其余模型都有不错的表现,尤其是SVM回归和深度随机森林效果最佳;在平均绝对误差上,可以明显看出Bayes岭回归模型相较于其他模型误差更大,此外,SVM回归和深度随机森林效果远优于其他模型;在R2上,各模型均有不错的表现,其中SVM回归、随机森林、深度随机森林的分数超过0.9分,略优于其他模型;在平均绝对百分误差上仍是SVM回归、深度随机森林模型效果最好,Bayes岭回归和双向LSTM神经网络较差。此外,也对比了各种算法的训练时长,从表中可以看出岭回归和KNN算法训练时长非常短,神经网络算法训练时长较长,深度随机森林算法训练时间居中。电脑配置为:Inter(R) Core(TM) i7-7700 CPU,3.6 GHz,16 G RAM,64位Win10操作系统。

      表 3  4种评价指标下,各类机器学习算法预测结果

      模型名称RMSEMAER2MAPE时长/s
      SVM回归2.9552.1520.91117.7154.8
      KNN算法3.2982.7280.88920.5310.3
      Bayes岭回归4.3063.5610.81123.1860.1
      随机森林3.1232.5590.90118.5022.2
      深度随机森林2.8181.8780.91914.3904.7
      BP神经网络3.4892.8000.87619.3788.4
      LSTM3.6472.850.86421.15721.4
      双向LSTM3.4582.7470.87823.54173.1

      为了展示各种算法的预测结果与时间的变化关系,选择了两个用户,并在图5中给出了真实值和算法的预测值之间的关系。从图中看出白天负荷波动较大,尤其是8:00-20:00之间,此外,各类算法的预测趋势与真实值基本一致,难以看出哪种算法更准确,因此还需借助上述几个指标进行评估。

      图  5  两个用户的多种算法的负荷预测结果

      最后,为了研究本文算法的短期预测效果,给出了预测后3天和后5天的用户负荷的结果,如表4所示。

      表 4  后3天和后5天各类机器学习算法预测结果

      模型名称后3天;后5天
      RMSEMAER2MAPE
      SVR回归4.060;4.9382.779;3.4260.861;0.79435.653;54.923
      Knn算法4.600;4.3923.344;3.3490.821;0.83739.541;52.813
      Bayes岭回归5.539;5.8193.968;4.2320.741;0.71552.073;75.965
      随机森林4.398;4.8593.194;3.6120.837;0.80145.540;75.610
      深度随机森林4.0468;4.4482.846;3.2060.862;0.83330.724;46.691
      BP神经网络4.787;6.9983.288;4.9240.807;0.58740.51;65.081
      LSTM7.472;9.6145.804;6.8910.761;0.72653.801;62.126
      双向LSTM5.505;6.3633.599;4.5580.716;0.65947.558;78.369

      综上所述,在本实验数据集上深度随机森林效果最佳,其次是SVM回归和随机森林。Bayes岭回归各方面表现最差,不适用于本实验数据集的用户负荷预测。

    • 本文以金华市用户负荷数据为例,通过爬取以及分析金华市天气信息和用户负荷数据,并借助RMSE、MAE、R2、MAPE这4个评价指标,使用深度随机森林算法对用户负荷进行预测。通过与其他多种预测算法结果对比,发现深度随机森林算法表现出更好的预测效果。

      尽管本文爬取的天气数据没有每小时的信息,却能较好地预测用户负荷。如果能挖掘出每小时的天气数据,应该能得到更好的预测结果。不少研究发现混合多个机器学习算法有望获得更好的预测准确率,这也是我们下一步的研究方向。此外,如果将用户按行业分类,对每个行业分别训练和预测可能会提升预测结果。 最后,本文仅研究了用户在全年都有的数据,忽略了新用户稀疏数据的影响,采用对抗网络模型[22]可以较好地解决这个问题。

参考文献 (22)

目录

    /

    返回文章
    返回