留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

强化学习无人机通信系统中的信息年龄优化

李新民 尹宝林 魏李莉 张晓强

李新民, 尹宝林, 魏李莉, 张晓强. 强化学习无人机通信系统中的信息年龄优化[J]. 电子科技大学学报, 2022, 51(2): 213-218. doi: 10.12178/1001-0548.2021128
引用本文: 李新民, 尹宝林, 魏李莉, 张晓强. 强化学习无人机通信系统中的信息年龄优化[J]. 电子科技大学学报, 2022, 51(2): 213-218. doi: 10.12178/1001-0548.2021128
LI Xinmin, YIN Baolin, WEI Lili, ZHANG Xiaoqiang. Reinforcement Learning-Based Age of Information Optimization in UAV-Enabled Communication System[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(2): 213-218. doi: 10.12178/1001-0548.2021128
Citation: LI Xinmin, YIN Baolin, WEI Lili, ZHANG Xiaoqiang. Reinforcement Learning-Based Age of Information Optimization in UAV-Enabled Communication System[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(2): 213-218. doi: 10.12178/1001-0548.2021128

强化学习无人机通信系统中的信息年龄优化

doi: 10.12178/1001-0548.2021128
基金项目: 国家重点研发计划(2019YFB1705100);国家留学基金委项目(202008515123)
详细信息
    作者简介:

    李新民(1989-),男,博士,主要从事5G通信系统、无人机通信等方面的研究

    通讯作者: 李新民,E-mail:lixm@swust.edu.cn
  • 中图分类号: TN92

Reinforcement Learning-Based Age of Information Optimization in UAV-Enabled Communication System

图(5) / 表(1)
计量
  • 文章访问数:  5750
  • HTML全文浏览量:  2755
  • PDF下载量:  45
  • 被引次数: 0
出版历程
  • 收稿日期:  2021-05-08
  • 修回日期:  2021-09-28
  • 录用日期:  2022-01-24
  • 刊出日期:  2022-03-25

强化学习无人机通信系统中的信息年龄优化

doi: 10.12178/1001-0548.2021128
    基金项目:  国家重点研发计划(2019YFB1705100);国家留学基金委项目(202008515123)
    作者简介:

    李新民(1989-),男,博士,主要从事5G通信系统、无人机通信等方面的研究

    通讯作者: 李新民,E-mail:lixm@swust.edu.cn
  • 中图分类号: TN92

摘要: 针对6G移动通信系统中信息新鲜度表征和优化问题,提出基于信息年龄的信息新鲜度表征方法,并形成无人机能耗约束下的最小化信息年龄优化问题。而离散的信息年龄优化目标和复杂能耗约束使得非凸优化问题难以求解,因此提出基于强化学习(RL)的无人机轨迹方法。该方法构建与信息年龄相关的奖励函数以快速实现智能化的无人机轨迹决策,从而降低无人机通信系统的信息年龄。仿真结果表明,相比于基准方案能提高8.51%~21.82%的系统信息新鲜度,同时具有更优的收敛性。

English Abstract

李新民, 尹宝林, 魏李莉, 张晓强. 强化学习无人机通信系统中的信息年龄优化[J]. 电子科技大学学报, 2022, 51(2): 213-218. doi: 10.12178/1001-0548.2021128
引用本文: 李新民, 尹宝林, 魏李莉, 张晓强. 强化学习无人机通信系统中的信息年龄优化[J]. 电子科技大学学报, 2022, 51(2): 213-218. doi: 10.12178/1001-0548.2021128
LI Xinmin, YIN Baolin, WEI Lili, ZHANG Xiaoqiang. Reinforcement Learning-Based Age of Information Optimization in UAV-Enabled Communication System[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(2): 213-218. doi: 10.12178/1001-0548.2021128
Citation: LI Xinmin, YIN Baolin, WEI Lili, ZHANG Xiaoqiang. Reinforcement Learning-Based Age of Information Optimization in UAV-Enabled Communication System[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(2): 213-218. doi: 10.12178/1001-0548.2021128
  • 无人机空中基站具有部署灵活、自主可控和低成本的优点,能够满足未来6G移动通信系统的广覆盖、低时延、大连接和智能化部署的需求[1],因此无人机通信技术成为构建未来6G移动通信系统的关键技术之一。

    目前,无人机通信系统中性能分析和轨迹设计成为研究热点[2-3]。无人机轨迹不仅影响通信链路质量,还影响无人机能耗,因此针对不同场景和需求设计有效的飞行轨迹成为无人机通信网络中的重要研究工作[4-5]。文献[6]在单个无人机和两个地面用户组成的无线能量传输系统中,通过优化无人机飞行轨迹以提升地面用户接收能量。文献[7]考虑了一种圆形飞行轨迹的无人机信息采集系统,基于二分法和循环迭代法优化无人机飞行轨迹,分别得到最小化系统能耗和地面用户能耗的飞行方案。然而多无人机集群通信系统中,多无人机轨迹优化和干扰控制是现有研究的工作难点。文献[8]通过联合优化通信链路的带宽和无人机飞行轨迹,实现最大化地面用户速率性能。文献[9]针对上行两用户干扰信道的无人机通信系统,通过分析无人机位置和地面用户功率对速率性能的影响,获得发送功率闭式和无人机位置的范围,实现无人机通信和速率最优。针对通信系统智能化需求,文献[10]提出一种深度强化学习方法优化无人机飞行轨迹以实现最大化传输速率性能。文献[11]提出了一种新的基于门控循环单元和自编码器的深度学习算法,实现无人机轨迹预测和姿态评估,保证无人机通信系统的可靠性。总体而言,当前研究主要以提升无人机通信速率、降低能耗和增强可靠性等性能需求为主,忽略了信息新鲜度的性能需求。

    在6G系统的实时性需求场景下,系统获取的新鲜信息才能被有效使用[12-13]。为满足6G通信系统多方位设计需求,信息新鲜度优化成为移动通信系统中亟需解决的问题。在文献[14]中,信息年龄(age of information, AoI)首先被用来表征信息新鲜度,具体定义为数据包从源节点生成,并到达目的节点所经历的时间。文献[15]在局域网络中基于不同调度策略验证了信息年龄表征的信息新鲜度性能。文献[16]在信息年龄约束下优化传感器的动作,从而最小化传感器网络发射功率。文献[17]在单用户衰落信道中,考虑AoI需求提出了基于动态规划的功率优化策略。文献[18]提出了有效信息年龄的概念,分析了系统吞吐量与平均有效信息年龄的关系。然而,上述所提信息年龄优化方法不适用于能耗约束下的无人机通信系统中的信息年龄优化研究。

    本文针对无人机通信系统中信息新鲜度的性能需求,首先基于信息年龄建模单无人机通信系统的信息新鲜度,并形成能耗约束下的最小化信息年龄的优化问题。针对复杂的非凸优化问题提出基于强化学习的无人机轨迹优化方法,该方法将构建与信息年龄相关的奖励函数以实现智能化无人机轨迹决策。

    • 本文考虑单个无人机基站和N个地面用户组成的通信系统,该系统由单天线的无人机和N个单天线用户组成,其中无人机服务半径为$ {R_s} $,飞行高度为$ H $,用户与无人机采用时分复用通信。无人机在t时刻的三维坐标为$ {{b}}(t) = (x(t),y(t),H) $,第n个用户的三维坐标为$ {{{q}}_n} = ({x_n},{y_n},0) $,第n个用户与无人机的三维距离$ {d_n}(t) = \sqrt {{{({x_n} - x(t))}^2} + {{({y_n} - y(t))}^2} + H_{}^2} $。为更加准确地刻画无人机通信链路信道信息,本文采用概率信道模型[19]。为方便描述,第n个用户和无人机之间直视径(line of sight, LoS)通信链路的概率定义为:

      $$ \eta _n^{{\rm{LoS}}}(\theta _n^t) = \frac{1}{{1 + F{\rm{exp}}( - G[\theta _n^t - F])}} $$ (1)

      式中,GF为信道参数,值取决于信道环境;$ \theta _n^t $为第n个用户在t时刻的仰角。用户与无人机之间的传输方式为非直视径(non-line of sight, NLoS)的概率$ \eta _n^{{\rm{N}}{\rm{LoS}}}(\theta _n^t) = 1 - \eta _n^{{\rm{LoS}}}(\theta _n^t) $。因此,第n个用户与无人机之间平均信道功率增益表示为:

      $$ h_n^t = \eta _n^{{\rm{LoS}}}(\theta _n^t){\rm{PL}}_n^{{\rm{LoS}}} + \eta _n^{{\rm{NLoS}}}(\theta _n^t){\rm{PL}}_n^{{\rm{NLoS}}} $$ (2)

      式中,$ {\rm{PL}}_n^{{\rm{LoS}}} $$ {\rm{PL}}_n^{{\rm{NLoS}}} $分别表示第n个用户与无人机通信时LoS链路和NLoS链路的路径损耗。定义第n个用户的发射功率为$ {p_n} $,无人机接收端的噪声功率为$ {\sigma ^2} $,在无人机接收电路处理后,第n个用户在t时刻的信噪比表示为:

      $$ \gamma _n^t = \frac{{{p_n}h_n^t}}{{{\sigma ^2}}} $$ (3)

      定义传输带宽为B,因此在t时刻无人机接收第n个用户的数据速率为:

      $$ \varGamma _n^t = B{\log _2}(1 + \gamma _n^t) $$ (4)

      无人机的能耗主要由通信能耗和动力能耗组成。假定无人机具有恒定的接收功率$ {p_u} $,在时间t内通信产生的能耗为:

      $$ {E_c}(t) = {p_u}t $$ (5)

      保持无人机处于恒定高度和支持无人机飞行产生的能耗为动力能耗,对于正常运行的无人机,所需动力能耗为[20]

      $$ \begin{split} {E_m}(t) =& \int_0^t [{c_1}||{{v}}(t)|{|^3} + \frac{{{c_2}}}{{||{{v}}(t)||}}(1 + (|{{\beta }}{{(t)}^2}|| - \hfill \\ & \frac{{{{({{\beta }}(t){{v}}(t))}^2}}}{{||{{v}}(t)|{|^2}}})/{g^2}] {\text{ }}{\rm{d}}t + \frac{1}{2}m(||{{v}}(t)|{|^2} - ||{{v}}(0)|{|^2}) \hfill \end{split} $$ (6)

      式中,$ {{v}}(t) \triangleq {\dot b_u}(t) $为无人机飞行速度;$ {{\beta }}(t) \triangleq {\ddot b_u}(t) $为无人机飞行加速度;参数$ {c_1} $$ {c_2} $的值取决于无人机的重量、机翼面积和空气密度等;m为无人机的质量;g为重力加速度。定义无人机总能量为$ {E_{\max }} $,则无人机剩余能量表示为:

      $$ {E_{\rm{r}}}(t) = {E_{\max }} - {E_{{\rm{total}}}}(t) $$ (7)

      式中,总能耗${E_{{\rm{total}}}}(t) = {E_{\rm{r}}}(t) + {E_m}(t)$。为满足无人机的正常服务,无人机剩余能量${E_{\rm{r}}}$应不小于最低工作能量$ {E_{\rm{l}}} = \chi {E_{\max }} $,其中系数$ \chi \in (0,1) $

    • 本文采用AoI度量信息新鲜度,AoI越小信息新鲜度越高,反之,AoI越大信息越不新鲜。结合5G帧结构,定义$ \tau _n^\mu $为第n个用户在第$ \mu $个子帧时的信息AoI,则AoI计算表达式为:

      $$ \tau _n^\mu = \left\{ {\begin{array}{*{20}{c}} {\tau _n^{\mu - 1} + 1}&{{\partial _n} = 0} \\ {1}&{其他} \end{array}} \right. $$ (8)

      式中,$ \;{\partial _n} $是一个二进制数,当$ \;{\partial _n} = 1 $时,表示第n个地面用户与无人机基站间数据包的传输已经完成,$ \;{\partial _n} = 0 $表示还未传输完成。在有限观察时间内,AoI变化趋势如图1所示,其中$ {\tau _1} = 1 $。在$ {\mu _1} $时刻用户开始向无人机发送数据包,若数据包未发送完成,AoI会持续增加,直到$ {\mu _2} $时发送完毕,并在$ {\mu _3} $时开始服务下一个用户。

      图  1  AoI的变化趋势

      由于用户信息AoI于通信信道和数据量直接相关,给定数据包大小$ {R_p} $$ \;{\partial _n} $的值取决于在$ \mu $个子帧传输的数据总量与$ {R_p} $的大小,关系为:

      $$ {\partial _n} = \left\{ {\begin{array}{*{20}{c}} {1}&{\displaystyle\sum\limits_{i = 1}^\mu {\varGamma _n^i} > {R_p}} \hfill \\ {0}&{其他} \hfill \\ \end{array}} \right. $$ (9)

      本文旨在优化无人机轨迹设计,从而提升无人机通信系统信息新鲜度。因此,在T个观测子帧内,最小化平均信息年龄优化问题如下:

      $$ \begin{split} &(\text{P}1):\underset{v(\mu )}{\mathrm{min}}\frac{1}{NT}\sum\limits_{n = 1}^N {\sum\limits_{\mu = 1}^T {\tau _n^\mu } } \\ &\quad \text{         s}\text{.t.   }{E}_{{\rm{r}}}(t)\geqslant \text{ }{E}_{l} \end{split} $$ (10)

      式中,能耗约束表示无人机的剩余能量不小于无人机的最低工作能量。由于能耗约束十分复杂,且离散优化目标与通信速率相关,因此该非凸优化问题通常难以求得最优解。

    • 为求解上述复杂AoI优化问题,实现无人机飞行轨迹自主决策,本文采用Q-Learning算法通过奖励策略设计无人机飞行轨迹。Q-Learning是一个无模型的强化学习算法,也可以被看作是异步动态规划方法。它为智能体与环境的信息交互提供经验以提升在有限马尔可夫模型$ < S,A,P,R,\gamma > $中获取最佳动作决策的学习能力。该马尔可夫模型具有有限的状态空间$ S $、动作空间$ A $、状态转移概率$ P $、奖励函数$ R $以及折扣因子$ \gamma $,折扣因子用于表征处于当前状态下未来奖励的重要程度。定义$ \alpha $为学习率,决定新经验值与历史经验值的利用程度。定义贪婪系数$ \epsilon \in (0,1) $以平衡算法探索和利用关系,无人机将基于$ \epsilon -{\rm{greedy}} $策略选择动作。

      1) 状态空间:无人机在服务用户过程中,状态空间仅由无人机位置决定,无人机的飞行高度恒定为$ H $,将无人机在子帧u的位置坐标$ {{b}}(u) = (x(\mu ),y(\mu ),H) $作为无人机的状态,从而构建了无人机的状态空间$ s(\mu ) \in S = \{ {{b}}(\mu )\} $

      2) 动作空间:动作空间为无人机在服务过程中可执行动作的集合,无人机的飞行高度恒定。受限于无人机的计算能力和能量,本文考虑在子帧$ \mu $可执行的动作包括东、南、西、北、东北、东南、西北、西南8个典型动作,从而构成无人机的动作空间,$ a(\mu ) \in A = \{ '{\rm{E}}',\;'{\rm{S}}'\;,'{\rm{W}}',\;'{\rm{N}}',\;'{\rm{EN}}',\;'{\rm{ES}}',\; '{\rm{WN}}',\; $$ '{\rm{WS}}' \} $。高维动作空间将导致训练次数增加,也会增加计算时间,消耗无人机有限能量。而本文所提典型动作空间可为高维动作空间研究提供基础。无人机的动作空间为当无人机在任意状态下,可通过执行动作空间中的任意动作到达下一个状态。

      3) 奖励规则:为使无人机能够自主求解最佳路径,将无人机所采集每个用户AoI经过一定的运算规则后将计算结果作为奖励反馈给无人机,无人机可根据该奖励决策是否在该状态下执行该动作。通过多次训练使无人机在每个状态下都能选取长期收益最大的动作,即获得最佳动作策略。定义$ \varPhi $$ \lambda \in [0,1] $为奖励相关的参数,以保证奖励与AoI之间为负相关,$ {\omega _n} $表示当前服务用户最后时刻的$ {\tau _n} $值,则无人机服务第n个用户的奖励$ {\varPsi _n} $为:

      $$ {\varPsi _n} = \;\varPhi - \;{\omega _n}\lambda $$ (11)

      无人机与环境交互获得环境反馈的奖励,借助反馈信息更新Q表从而收敛到最优行为,策略为$ \pi $Q表的更新表达式为:

      $$ \begin{array}{c} \;\;\;\;\;\;\;{Q^\pi }(s(\mu ),a(\mu )) = {Q^\pi }(s(\mu ),a(\mu )) + \\ \alpha [\varPsi + \gamma \mathop {{\rm{max}}}\limits_{\tilde a \in A} {Q^\pi }(s(\mu + 1),\tilde a) - {Q^\pi }(s(\mu ),a(\mu ))] \end{array} $$ (12)

      为得到最佳策略,使无人机在任意状态下都能选择长期收益最大的动作,所提基于Q-Learning的最小化AoI算法如下。

      初始化参数$ \alpha $$ \gamma $$ \epsilon $、无人机状态$ {{{b}}_{\rm{s}}} $、训练次数$ {N_{\rm{r}}} $、无人机总能量$ {E_{\max }} $和最低工作能量$ {E_{\rm{l}}} $等。

      While $ {N_{\rm{r}}} $ > 0 do

       If ${E_{\rm{r}}} \geqslant {\text{ }}{E_{\rm{l}}}$ then

        If 未到达目的状态 then

         根据$ \epsilon -{\rm{greedy}} $策略选择动作;根据式(11)计算奖励;根据式(12)更新无人机Q表;根据式(7)更新无人机剩余能量${E_{\rm{r}}}$

        Else

         根据式(10)计算平均AoI;$ {N_{\rm{r}}} \leftarrow {N_{\rm{r}}} - 1 $

        End if

       Else

        无人机停止服务,飞回初始化状态$ {{{b}}_{\rm{s}}} $

       End if

      End

      依据上述算法过程描述可知,每次训练最大计算量为$ O(L|S| \times |A|) $,其中$ |S| $$ |A| $分别表示状态空间和动作空间长度,$ L $表示无人机从总能量$ {E_{\max }} $$ {E_{\rm{l}}} $的最大子帧数。因此在$ {N_{\rm{r}}} $训练次数下所提算法计算复杂度为$ O(8L{N_{\rm{r}}}|S|) $

    • 为验证本文方案性能的优越性,将贪婪方案与随机方案作为基准方案,在不同参数配置下验证所提方案。为减少数据包重传带来额外的能量开销,考虑无人机飞至用户的正上方才开始数据接收。无人机成功接收所有数据包或者停止服务后,不再计算AoI。仿真平台为Python3.9,CPU为Intel i5-5350U@ 1.80 GHz,详细仿真参数如表1所示。$ {\phi _n} $为第n个用户的其他路损,则LoS路损和NLoS路损分别表示为:

      $$ \begin{split} & {\rm{P}}{{\rm{L}}^{{\rm{LoS}}}} = 20\log {d_n} + 20\log {f_c} + 20\log \left(\frac{{4{\text π} }}{c}\right) + \phi _n^{{\rm{LoS}}} \hfill \\ & {\rm{P}}{{\rm{L}}^{{\rm{NLoS}}}} = 20\log {d_n} + 20\log {f_c} + 20\log \left(\frac{{4\pi }}{c}\right) + \phi _n^{{\rm{NLoS}}} \hfill \end{split} $$

      表 1  仿真参数

      符号参数描述
      $ B $ 带宽/KHz 180
      $ {f_c} $ 载频/GHz 2
      N 用户数/个 10
      $ p $ 用户发射功率/dBm 20
      $ {\sigma ^2} $ 噪声功率/dBm −114
      $ \alpha $ 学习率 0.6
      $ \epsilon $ 贪婪系数 0.5
      $ \gamma $ 折扣因子 0.99
      $ {R_s} $ 无人机服务半径/m 700
      $ H $ 无人机飞行高度/m 100
      $ {E_{\max }} $ 无人机最大能量/J 1.5696×105
      $ {R_p} $ 数据包大小/K 128
      $ \chi $ 最小能量参数 0.1
      F 信道相关参数 30[19]
      G 信道相关参数 0.7[19]

      在单个无人机数据收集场景下,基于Q-Learning算法训练无人机多次后的飞行轨迹如图2所示。无人机收集每个用户的信息后,根据设计的奖励机制向无人机反馈奖励,然后更新剩余能量$ {E_{\rm{r}}} $Q表,从而自主决策无人机飞行轨迹。

      图  2  无人机飞行轨迹

      图3仿真了用户发射功率与平均AoI的关系。仿真表明随着发射功率增加平均AoI呈现下降趋势,意味着平均AoI与用户发射功率负相关。当发射功率增大时,接收端信噪比增大增加了通信速率,因此传输数据包所占子帧数减少,从而使得系统AoI减小。与基准方案相比,在相同发射功率下,本文无人机轨迹设计方案能够降低信息平均AoI,具体地,发射功率$ p = 20\;{\text{dBm}} $时,相较于随机方案和贪婪方案,本文方案平均AoI减少16.13%以上。

      图4仿真了无人机服务半径与AoI之间关系,不难发现无人机服务半径增加,飞行时间变长,系统AoI快速增加。通过与基准方案对比发现:在相同服务半径情况下,所提无人机轨迹设计方案能够有效降低系统AoI。特别地,在$ {R_u} = 300\;{\text{m}} $时,相较于随机方案,本文方案的平均AoI降低20.40%,相较于贪婪方案,本文方案的平均AoI降低15.26%。

      图  3  发射功率与AoI的关系

      图  4  无人机服务半径与AoI的关系

      图5仿真了3种方案下信息年龄与训练次数的关系。在固定信道下训练无人机$ {N_r} $次,本文方案AoI结果随着训练轮次增加而逐渐降低,表明此方案能够实现无人机自主决策飞行轨迹,提高信息新鲜度。与基准方案相比,此方案具有更优的收敛性:相比于随机方案,能提升无人机通信系统21.82%的信息新鲜度性能,相比于贪婪方案,提高了8.51%的信息新鲜度性能。

      图  5  信息年龄与训练次数的关系

    • 本文基于信息年龄建模无人机通信系统的信息新鲜度并形成能耗约束下的最小化信息年龄的优化问题,提出了基于强化学习的无人机轨迹优化方法,构建与信息年龄相关的奖励函数,使无人机自适应地改进飞行轨迹设计策略。仿真结果表明,此方案与基准方案相比,能有效提高系统的信息新鲜度,同时,所提无人机轨迹设计方案具有更优的收敛性。此研究工作为无人机集群通信系统中增强信息新鲜度提供了优化方法。

      本文的研究得到了西南科技大学博士基金(18zx7142, 19zx7123)的支持,在此表示感谢!

参考文献 (20)

目录

    /

    返回文章
    返回