智能电网中电动汽车充电的自适应电价控制方法

引用本文

周文辉, 钟伟锋, 余荣. 智能电网中电动汽车充电的自适应电价控制方法[J]. 电子科技大学学报, 2015, 44(4): 636-640. 复制到剪切板

ZHOU Wen-hui, ZHONG Wei-feng, YU Rong. Price Control for Electric Vehicle Charging in Smart Grid:Adaptive Dynamic Programming Approach[J]. Journal of University of Electronic Science and Technology of China, 2015, 44(4): 636-640. 复制到剪切板

智能电网中电动汽车充电的自适应电价控制方法

[PDF全文]

周文辉^1,2, 钟伟锋², 余荣²

1. 电子科技大学中山学院广东中山 528402;
2. 广东工业大学自动化学院广州 510006

收稿日期: 2015-01-30; 修回日期: 2015-05-29.

基金项目：国家自然科学基金(61422201, 61370159, U1201253);广东省优秀青年教师培养计划(YQ2013057)

作者简介：周文辉(1972-),男,副教授,主要从事智能电网方面的研究.

摘要：针对电动汽车的充电提出一种电价控制策略。聚合管理者集中管理电动汽车的电池,并且考虑用电高峰时电网的电能供给有限,通过电价控制调整充电的需求量。采用自适应动态规划,通过在线网络训练,得到最优的电价策略。仿真结果表明,该自适应电价控制方法能够通过学习电动汽车的移动性和充电过程,从而调整实际充电需求量至期望水平,保证智能电网的稳定运行。

关键词：自适应动态规划电动汽车电价控制智能电网

Price Control for Electric Vehicle Charging in Smart Grid:Adaptive Dynamic Programming Approach

ZHOU Wen-hui^1,2, ZHONG Wei-feng², YU Rong²

1. Zhongshan Institute, University of Electronic Science and Technology of China Zhongshan Guangdong 528402;
2. Faculty of Automation, Guangdong University of Technology Guangzhou 510006

Abstract: With the rapid growing of electric vehicles (EVs), it is necessary to implement the charging control for huge number of EVs to ensure the reliability of smart grid. In this paper, a strategy of price control is proposed for EV charging. The aggregator manages EV batteries centrally and controls the EV charging demand through price. EV users change their charging demand based on the price information. However, the EV mobility is unknown in advance, which causes the inaccurate prediction of EV state and impacts the performance of price control. Thus, adaptive dynamic programming (ADP) is leveraged to achieve the optimal price policy by using online network training. Simulation results show that the proposed method is able to tune the EV charging demand close to the expected level by learning from the EV charging process and the EV mobility, which ensures the smart grid runs steadily.

Key words: adaptive dynamic programming electric vehicle price control smart grid

智能电网促进绿色低碳经济，是电网发展的大势所趋。各国政府已认识到智能电网在促进开发低碳技术方面的重要意义，智能电网的建设逐渐成为一项战略性基础设施投资^{[1, 2]}。电动汽车作为零排放的环保节能交通方式，符合智能电网低碳低能耗的要求，而且电动汽车接入电网作为智能电网用电管理技术的一部分，对智能电网的发展起到了重要的支持和推动作用^[3]。

然而，随着电动汽车大范围的普及，大量电动汽车同时充电会给电网带来巨大的充电负荷，影响电网的用电安全，导致过载、压降、功率损耗等负面影响^{[4, 5]}。

电价控制能有效地控制电动汽车的充电负荷。电价控制是通过实时调整电力价格，改变电动汽车用户的充电电量和时间，以达到“消峰填谷”的效果。文献^[6]采用基于使用时间的电价，最小化电动汽车的充电成本，实现消锋用电。文献^[7]采用实时电价动态地调整用户的用电需求量；再根据总用电量重新计算电价，实现自动的需求响应。然而，上述文献并未考虑电网电能供给的有限性，以及电动汽车移动性所带来的影响。实际上在用电高峰期，电网的电能供给总量通常是有限的，同时电动汽车的移动性难以被准确预测，对电价控制造成影响。

基于上述分析，本文提出一种适合于智能电网中电动汽车充电的电价控制策略。在双向通信网络的支持下，智能电网中的聚合管理者(aggregator)集中管理电动汽车的电池，并且优化计算电力价格控制电动汽车在不同时间段的充电的需求量^{[8, 9]}。采用自适应动态规划，联合考虑电网电能供给的有限性和电动汽车的移动性，通过在线网络训练，从而得到最优的电价策略。仿真结果表明，本文提出的电价控制策略能通过动态学习电动汽车的移动性和充电过程，从而调整实际充电需求量至期望水平，保证智能电网的稳定运行。

1 系统模型

智能电网中，电动汽车的充电场景如图 1所示。聚合管理者是电动汽车与电网之间的接口，提供电池管理和充电服务。在智能电网中，一个聚合管理者为一个商业区或一个城市内的车辆提供服务。该区域内的每一个停车位置都有一个充电桩。充电桩是电动汽车与聚合管理者之间的接口，提供双向通信和充电电能。图 1并不表示车辆必须在同一个充电站充电。车辆在各自的车位进行充电，而聚合管理者通过双向通信来控制充电。聚合管理者把区域内所有连接的车辆的电池聚合起来，形成一个聚合电池。聚合电池的充电需求量表示其覆盖区域内连接车辆的总充电需求量。

图1智能电网中电动汽车充电场景

在不同的时间段，区域内的电力需求是不一样的。在白天，电力供给要满足商业、工业、生活用电负荷等，此时电动车充电需求可能无法完全得到满足。在某个时间段，当聚合电池充电需求量大于期望值时，就需要实施电价控制，以此减低电动汽车在该时间段的充电需求量。白天未充满电的电动汽车可以在夜间电能充裕的时候再进行充电。

实施电价控制时，聚合电池会根据自身的电量(state of charging, SOC)和电价来调节充电需求量。然而，车辆的到达和离开会造成聚合电池的容量和电量的动态变化。电动汽车的移动性使聚合管理者难以预测聚合电池的状态，从而影响电价控制的效果。本文采用自适应动态规划，通过在线学习电动汽车的移动性和充电过程，得到最优的电价策略。

2 问题描述

整个电动汽车充电过程被划分成一个个时隙，t=1,2,……,N。N是时隙的总个数。相对于整个充电过程，每一个时隙的时间非常短。所以认为时隙的个数有无穷多个，即$N \to \infty $。

2.1 电动汽车充电需求

电动汽车用户会根据自身状态和实时电价，动态地调整充电的需求量，从而最大化自身的效益^[7]。本文中，聚合电池的充电需求量表示所有连接的电动汽车的总充电需求量。聚合电池的充电需求量为：

$[d(t + 1) = d(t) + \gamma [\omega (t) - d(t)p(t)]$

(1)

式中，$d(t)$表示在t时隙聚合电池的充电需求量；p(t)表示电价；$\gamma$表示用户对电价的敏感程度；w(t)表示支付意愿度。支付意愿度与电池电量的关系如下^[10]：

$\omega (t) = \frac{{\beta (t)}}{{{\rm{SOC}}(t)}}$

(2)

式中，SOC(t)是聚合电池的剩余电量。对于单用户，$\beta$为常数；对于多用户的聚合电池，$\beta$与用户数量成正比，$\beta (t) \propto S(t)$。当电池剩余电量越低时，支付意愿度就越高，电动汽车充电需求也会越高。然而，聚合电池的电量会受到电动汽车的移动性所影响。聚合电池电量为：

${\rm{SOC}}(t + 1) = \frac{{Q(t) + {Q_{\rm{m}}}(t) + d(t)}}{{S(t) + {S_{\rm{m}}}(t)}}$

(3)

式中，$Q(t)$表示聚合电池的电能存储量；S(t)表示聚合电池的总容量；S_m(t)表示由车的移动性所造成的聚合电池总容量的变化量；Q_m(t)表示由车的电能转移所造成的聚合电池存储电能的变化量。S_m(t)和Q_m(t)的表达式分别如下：

${S_{\rm{m}}}(t) = {S_{\rm{i}}}(t) + {S_{\rm{o}}}(t)$

(4)

${Q_{\rm{m}}}(t) = {S_{\rm{i}}}(t){\rm{SO}}{{\rm{C}}_{\rm{i}}}(t) + {S_{\rm{o}}}(t){\rm{SOC}}(t)$

(5)

式中，S_i(t)和S_o(t)分别表示到达车辆和离开车辆的总电池容量，且S_i(t)≥0，S_o(t)≤0；SOC_i(t)为到达车辆的平均电量，而离开车辆的平均电量等于聚合电池的电量。

在整个充电过程中，电动汽车的移动性使S_m(t)和Q_m(t)持续变化。聚合电池的电量SOC(t)也随之变化。聚合管理者难以预测SOC(t)在未来时隙中的变化情况，影响电价控制的性能。

2.2 代价函数

由式(1)可知，当$\omega (t) - d(t)p(t) = 0$时，充电需求将会稳定，所以管理者将电价控制为：

$p(t + 1) = \frac{{\omega (t)}}{{{d_{\rm{E}}}(t)}}$

(6)

式中，d_E(t)是期望的充电需求量，由电网供给所决定。通过对电动汽车的剩余电量的实时监测，管理者可以知道SOC(t)。$\beta$值可以通过历史数据计算或者用户设定得到，从而得到w(t)。设在t时隙中的系统状态为$x(t) = \{ d(t),{\rm{SOC}}(t),\beta (t),{d_{\rm{E}}}(t)\}$，每个时隙的代价为：

$U(t) = \left\{ {\begin{array}{*{20}{c}} 0&{\left| {{d_{\rm{E}}}(t) - d[x(t),p(t)]} \right| < e}\\ 1&或者{} \end{array}} \right.$

(7)

式中，e为实际需求量与期望值之间的允许误差值。给定系统状态x(t)和电价p(t)，就可以计算出时隙t结束时(或者时隙t+1开始时)的实际需求量$d[x(t),p(t)]$。为了电网的长期稳定运行，应该最小化整个充电过程的系统代价。长期系统代价为：

$J(t) = \mathop {\lim }\limits_{N \to \infty } \sum\limits_{j = 1}^N {U(j)}$

(8)

电价控制的目标就是计算出整个充电过程在不同时隙的最优电价策略 $\{ {p^ * }(1),{p^ * }(2), \cdots ,{p^ * }(N)\}$，以获得最小的电网的长期系统代价J^*。

3 自适应动态规划

根据Bellman方程，t时隙的最优电价为：

${p^ * }(t) = \arg \min \left\{ {U(t) + {J^ * }(t + 1)} \right\}$

(9)

对于无限时隙的系统，${J^ * }(t + 1)$无法用逆向递推方法得到。而且，即使系统时隙数量有限，但系统状态空间庞大，造成维数灾难，计算机无法负担如此大的计算量和存储量。因此，本文采用自适应动态规划(adaptive dynamic programming, ADP)理论，通过网络训练以获得${J^ * }(t + 1)$的近似值。为了获得近似值，长期系统代价函数改写为：

$J(t) = \sum\limits_{j = 1}^\infty {{\sigma ^{j - t}}U(j)}$

(10)

式中，$\sigma $是折扣因子，$0 \le \sigma \le 1$。当$\sigma $=0时，只考虑当前时隙的代价；当$\sigma $=1时，所有未来时隙的代价都被认为同等重要；只有当$0 \le \sigma \le 1$时，才能够估计出长期系统代价。

3.1 启发式动态规划结构

本文采用自适应动态规划中启发式动态规划结构(heuristic dynamic programming, HDP)^{[11, 12, 13]}，如图 2所示。

图2启发式动态规划结构

该结构包含电价控制器，聚合系统和评价网络。对于电价控制器，其输入是系统状态x(t)和评价网络的输出部分，然后输出电价p(t)。电价控制器的运作表示为：

$p(t) = \arg \min \left\{ {U(t) + \sigma \hat J(t + 1)} \right\}$

(11)

聚合系统描述的是系统状态的变化，其输入为电价p(t)和状态x(t)，输出为下一个时隙中系统状态的估计值$\hat x(t + 1)$。系统状态包括4个分量，其中聚合电池的需求量d(t)的变化由式(1)表示，电量SOC(t)的变化由式(3)表示， $\beta (t)$的变化为：

$\beta (t + 1) = c[S(t) + {S_{\rm{m}}}(t)]$

(12)

式中，c为常数。

评价网络采用BP神经网络。其输入是系统状态，输出是近似系统代价$\hat J$。通过在线网络训练，其输出量会趋向于最优系统代价。

3.2 评价网络的在线训练

评价网络的训练采用梯度下降法，目标就是最小化如下误差函数，即：

$\begin{array}{c} \left\| {{E_c}} \right\| = \frac{1}{2}\sum\limits_t {e_c^2(t)} = \\ \frac{1}{2}{\sum\limits_t {\left[ {\hat J(t) - U(t) - \sigma \hat J(t + 1)} \right]} ^2} \end{array}$

(13)

式中，$\hat J(t) = \hat J[x(t),p(t),{W_c}]$，${W_c}$是评价网络的权重系数。当此误差函数等于零时，有：

$\begin{array}{c} \hat J(t) = U(t) + \sigma \hat J(t + 1) = \\ U(t) + \sigma [U(t + 1) + \sigma \hat J(t + 2)] = \\ \sum\limits_{j = t}^\infty {{\sigma ^{j - k}}U(j)} \end{array}$

(14)

以上推导得到的正是系统代价函数式(10)。因此，训练网络时，最小化误差式(13)可以在下一个时隙得到近似的系统代价。评价网络的权重更新为：

$\begin{array}{c} \Delta {W_c}(t) = {l_c}(t)\left[ { - \frac{{\partial {E_c}(t)}}{{\partial {W_c}(t)}}} \right] = \\ {l_c}(t)\left[ { - \frac{{\partial {E_c}(t)}}{{\partial \hat J(t)}} \cdot \frac{{\partial \hat J(t)}}{{\partial {W_c}(t)}}} \right] \end{array}$

(15)

${{\bf{W}}_c}(t + 1) = {{\bf{W}}_c}(t) + \Delta {{\bf{W}}_c}(t)$

(16)

式中，${l_c}$是学习率，${l_c} > 0$。上述的启发式动态规划结构通过在线的神经网络训练，能估计出长期的系统代价。同时进行电价控制，最小化长期系统代价，从而得到最优的电价策略。

4 仿真结果 4.1 仿真设定

本文采用家庭出行调查数据库^[14]所提供的信息来描述车的移动性。选定美国旧金山的某个商业区，并记录该区域的到达和离开车辆的数量随时间的变化，如图 3所示。图 3只截取了需要进行电价控制的时间段(白天)。对电动汽车的电量进行归一化处理，假设到达的电动汽车的初始电量在$[30\% ,50\% ]$区间内。而离开的电动汽车的平均电量等于聚合电池的电量。每个时隙对应一个小时。

图3某商业区白天时段的车流量(只包含参与调查的车辆)

启发式动态规划结构的评价网络采用4-8-1结构的BP神经网络，有4个状态输入神经元，8个隐藏层神经元，1个输出神经元。输出层采用线性函数purelin，隐藏层采用双极性函数sigmoidal。

4.2 收敛性能

评价网络的学习率设为${l_c} = 0.1$。图 4给出了评价网络的输出曲线。由图可见，系统代价能够收敛至最小值，说明本文提出的启发式动态规划结构可以得到最优的电价策略。图 4a和图 4b分别设置了不同的折扣因子$\sigma $。由图可见，减小折扣因子可以提高系统代价的收敛速度，但是只考虑未来短期的代价。提高折扣因子可以考虑未来长期的代价，但牺牲了收敛速度。

图4评价网络输出

4.3 电价控制性能

评价网络的输出量是近似的最优系统代价。由于未来时隙内的电动车信息是未知的，电价控制难免会有误差。一个地区内的车流量的大小会影响电价控制的效果，如图 5所示。图中纵坐标表示实际充电需求量与期望值之间误差的绝对值的累计量。对图 3的车流量设置了不同倍数。由图可见，车流量越大，控制误差越大。用户对电价的敏感程度$\gamma $也会影响电价控制的效果，如图 6所示。由图可见，用户对电价越敏感，控制误差越大。

图5不同车流量造成的需求量累计误差

图6不同电价敏感度造成的需求量累计误差

5 结论

联合考虑用电高峰时电网的电能供给有限，以及电动汽车移动性的难预测特征，本文提出一种电价控制策略，通过电价控制调整不同时隙的电动汽车充电的需求量。采用自适应动态规划，通过在线网络训练，从而得到最优的电价策略。仿真结果表明，本文的自适应电价控制方法能通过学习电动汽车的移动性和充电过程，从而调整实际充电需求量至期望水平，保证智能电网的稳定运行。

参考文献

[1]	YU Y, YANG J, CHEN B. The smart grids in China—a review[J]. Energies, 2012, 5(5): 1321-1338.
[2]	王益民. 坚强智能电网技术标准体系研究框架[J]. 电力系统自动化, 2010, 34(22): 1-6.
[3]	韩鹏. 智能电网中电动汽车充电的优化调度研究[D]. 沈阳: 东北大学, 2012.
[4]	SHAFIEE S, FOTUHI-FIRUZABAD M, RASTEGAR M. Investigating the impacts of plug-in hybrid electric vehicles on power distribution systems[J]. IEEE Transactions on Smart Grid, 2013, 4(3): 1351-1360.
[5]	HADLEY S W, TSVETKOVA A A. Potential impacts of plug-in hybrid electric vehicles on regional power generation[J]. The Electricity Journal, 2009, 22(10): 56-68.
[6]	CAO Y, TANG S, LI C, et al. An optimized EV charging model considering TOU price and SOC curve[J]. IEEE Transactions on Smart Grid, 2012, 3(1): 388-393.
[7]	FAN Z. A distributed demand response algorithm and its application to PHEV charging in smart grids[J]. IEEE Transactions on Smart Grid, 2012, 3(3): 1280-1290.
[8]	MWASILU F, JUSTO J J, KIM E K, et al. Electric vehicles and smart grid interaction: a review on vehicle to grid and renewable energy sources integration[J]. Renewable and Sustainable Energy Reviews, 2014, 34: 501-516.
[9]	SIANO P. Demand response and smart grids—a survey[J]. Renewable and Sustainable Energy Reviews, 2014, 30: 461-478.
[10]	YU R, DING J, ZHONG W, et al. PHEV charging and discharging cooperation in v2g networks: a coalition game approach[J]. IEEE Internet of Things Journal, 2012, 1(6): 578-589.
[11]	WANG F Y, ZHANG H, LIU D. Adaptive dynamic programming: an introduction[J]. IEEE Computational Intelligence Magazine, 2009, 4(2): 39-47.
[12]	LIU D. Approximate dynamic programming for self-learning control[J]. Acta Automatica Sinica, 2005, 31(1): 13-18.
[13]	WERBOS P J. Approximate dynamic programming for real-time control and neural modeling[J]. Handbook of Intelligent Control: Neural, Fuzzy, and Adaptive Approaches, 1992, 15: 493-525.
[14]	National renewable energy laboratory. Transportation secure data center[DB/OL]. [2015-01-15]. http://www. nrel.gov/tsdc.


电子科技大学学报 2015, Vol. 44 Issue (4): 636-640