留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

面向智能通信的深度强化学习方法

谭俊杰 梁应敞

谭俊杰, 梁应敞. 面向智能通信的深度强化学习方法[J]. 电子科技大学学报, 2020, 49(2): 169-181. doi: 10.12178/1001-0548.2020040
引用本文: 谭俊杰, 梁应敞. 面向智能通信的深度强化学习方法[J]. 电子科技大学学报, 2020, 49(2): 169-181. doi: 10.12178/1001-0548.2020040
TAN Jun-jie, LIANG Ying-chang. Deep Reinforcement Learning for Intelligent Communications[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(2): 169-181. doi: 10.12178/1001-0548.2020040
Citation: TAN Jun-jie, LIANG Ying-chang. Deep Reinforcement Learning for Intelligent Communications[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(2): 169-181. doi: 10.12178/1001-0548.2020040

面向智能通信的深度强化学习方法

doi: 10.12178/1001-0548.2020040
基金项目: 国家自然科学基金(61631005,U1801261);国家重点研发计划(2018YFB1801105)
详细信息
    作者简介:

    谭俊杰(1994-),男,博士生,主要从事动态频谱共享、认知无线电以及智能无线通信等方面的研究

    通讯作者: 梁应敞,E-mail:liangyc@ieee.org
  • 中图分类号: TN929.5

Deep Reinforcement Learning for Intelligent Communications

  • 摘要: 在如今信息爆炸的时代,无线通信终端的激增导致无线通信网络规模剧增。同时,人们日益提高的通信需求使无线通信网络必须通过精准的按需服务来充分利用有限的资源。这二者使得传统人工建模并优化求解的网络管理方法在未来将会遇到瓶颈。幸运的是,人工智能和机器学习的出现为解决这一问题提供了新的途径。作为一种数据驱动的机器学习方法,深度强化学习能够直接学习动态环境规律并得到最优决策。因此,深度强化学习能赋予网络依据自身环境进行自我优化管理的能力,令智能通信将成为可能。本文从资源管理、接入控制以及网络维护三方面介绍了深度强化学习在无线通信上的应用,以此说明深度强化学习是实现智能通信的有效途径。
  • 图  1  MDP运行过程

    图  2  DNN示例

    图  3  神经元信息传递

    图  4  全连接层示例

    图  5  卷积及池化示例

    图  6  循环层图示

  • [1] HUANG Y, TAN J, LIANG Y. Wireless big data: Transforming heterogeneous networks to smart networks[J]. Journal of Communications and Information Networks, 2017, 2(1): 19-32. doi:  10.1007/s41650-017-0002-1
    [2] LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444. doi:  10.1038/nature14539
    [3] LUONG N C, HOANG D T, GONG S, et al. Applications of deep reinforcement learning in communications and networking: A survey[J]. IEEE Communications Surveys & Tutorials, 2019, 21(4): 3133-3174.
    [4] SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484. doi:  10.1038/nature16961
    [5] SUTTON R S, BARTO A G. Introduction to reinforcement learning[M]. Cambridge: MIT press, 1998.
    [6] CYBENKO G. Approximation by superpositions of a sigmoidal function[J]. Mathematics of control, signals and systems, 1989, 2(4): 303-314. doi:  10.1007/BF02551274
    [7] DAYAN P, ABBOTT L F. Theoretical neuroscience: computational and mathematical modeling of neural systems[M]. [S.l.]: The MIT Press, 2001.
    [8] LECUN Y, BENGIO Y. Convolutional networks for images, speech, and time series[J]. The Handbook of Brain Theory and Neural Networks, 1995, 3361(10): 1995.
    [9] MANDIC D P, CHAMBERS J. Recurrent neural networks for prediction: Learning algorithms, architectures and stability[M]. [S.l.]: John Wiley & Sons Inc, 2001.
    [10] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780. doi:  10.1162/neco.1997.9.8.1735
    [11] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529-533. doi:  10.1038/nature14236
    [12] VAN H H, GUEZ A, SILVER D. Deep reinforcement learning with double q-learning[C]//Thirtieth AAAI conference on artificial intelligence. Phoenix: [s. n.], 2016.
    [13] WANG Z, SCHAUL T, HESSEL M, et al. Dueling network architectures for deep reinforcement learning[EB/OL]. (2016-04-15). http://arxiv.org/abs/1511.06581.
    [14] LILLICRAP T P, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[EB/OL]. (2019-07-05). http://arxiv.org/abs/1509.02971.
    [15] MNIH V, BADIA A P, MIRZA M, et al. Asynchronous methods for deep reinforcement learning[C]//International Conference on Machine Learning. New York: ACM, 2016: 1928-1937.
    [16] SCHULMAN J, LEVINE S, ABBEEL P, et al. Trust region policy optimization[C]//International Conference on Machine Learning. Lille: ACM, 2015: 1889-1897.
    [17] SCHULMAN J, WOLSKI F, DHARIWAL P, et al. Proximal policy optimization algorithms[EB/OL]. (2017-03-14). http://arxiv/abs/1707.06347.
    [18] TAN J, ZHANG L, LIANG Y, et al. Intelligent sharing for LTE and WiFi Systems in Unlicensed Bands: A Deep Reinforcement Learning Approach[J]. IEEE Transactions on Communications, DOI: 10.1109/TCOMM.2020.2971212.
    [19] YU Y, WANG T, LIEW S. Deep-reinforcement learning multiple access for heterogeneous wireless networks[J]. IEEE Journal on Selected Areas in Communications, 2019, 37(6): 1277-1290. doi:  10.1109/JSAC.2019.2904329
    [20] YU Y, LIEW S, WANG T. Non-uniform time-step deep Q-network for carrier-sense multiple access in heterogeneous wireless networks[EB/OL]. (2019-10-11). http://arxiv.org/abs.1910.05221.
    [21] ALI R, SHAHIN N, ZIKRIA Y B, et al. Deep reinforcement learning paradigm for performance optimization of channel observation-based MAC protocols in dense WLANs[J]. IEEE Access, 2018, 7: 3500-3511.
    [22] NAPARSTEK O, COHEN K. Deep multi-user reinforcement learning for distributed dynamic spectrum access[J]. IEEE Transactions on Wireless Communications, 2018, 18(1): 310-323.
    [23] LIU X, XU Y, JIA L, et al. Anti-jamming communications using spectrum waterfall: A deep reinforcement learning approach[J]. IEEE Communications Letters, 2018, 22(5): 998-1001. doi:  10.1109/LCOMM.2018.2815018
    [24] LI X, FANG J, CHENG W, et al. Intelligent power control for spectrum sharing in cognitive radios: A deep reinforcement learning approach[J]. IEEE Access, 2018, 6: 25463-25473. doi:  10.1109/ACCESS.2018.2831240
    [25] NASIR Y S, GUO D. Multi-agent deep reinforcement learning for dynamic power allocation in wireless networks[J]. IEEE Journal on Selected Areas in Communications, 2019, 37(10): 2239-2250. doi:  10.1109/JSAC.2019.2933973
    [26] TAN J, ZHANG L, LIANG Y. Deep Reinforcement Learning for Channel Selection and Power Control in D2D Networks[C]//2019 IEEE Global Communications Conference (GLOBECOM). Waikoloa: IEEE, 2019: 1-6.
    [27] SADEGHI A, WANG G, GIANNAKIS G B. Deep reinforcement learning for adaptive caching in hierarchical content delivery networks[J]. IEEE Transactions on Cognitive Communications and Networking, 2019, 5(4): 1024-1033. doi:  10.1109/TCCN.2019.2936193
    [28] REN J, WANG H, HOU T, et al. Federated learning-based computation offloading optimization in edge computing-supported internet of things[J]. IEEE Access, 2019, 7: 69194-69201. doi:  10.1109/ACCESS.2019.2919736
    [29] KONEČNÝ J, MCMAHAN H B, YU F, et al. Federated learning: Strategies for improving communication efficiency[EB/OL]. (2017-10-30). http://arxiv.org/abs/1610.05492.
    [30] WANG X, HAN Y, WANG C, et al. In-edge AI: Intelligentizing mobile edge computing, caching and communication by federated learning[J]. IEEE Network, 2019, 33(5): 156-165. doi:  10.1109/MNET.2019.1800286
    [31] HE Y, LIANG C, YU R, et al. Trust-based social networks with computing, caching and communications: A deep reinforcement learning approach[J]. IEEE Transactions on Network Science and Engineering, DOI: 10.1109/TNSE.2018.2865183.
    [32] HE Y, ZHAO N, YIN H. Integrated networking, caching, and computing for connected vehicles: A deep reinforcement learning approach[J]. IEEE Transactions on Vehicular Technology, 2017, 67(1): 44-55.
    [33] NDIKUMANA A, TRAN N H, HO T M, et al. Joint communication, computation, caching, and control in big data multi-access edge computing[EB/OL]. (2018-03-30). http://arxic.org/abs/1803.11512.
    [34] DHIMAN A, SANDHA K S G. Vertical and horizontal handover in heterogeneous wireless networks[D]. Patiala: Thapar Institute of Engineering and Technology, 2013.
    [35] ZHANG C, LIU Z, GU B, et al. A deep reinforcement learning based approach for cost-and energy-aware multi-flow mobile data offloading[J]. IEICE Transactions on Communications, 2018, 7: 1625-1634.
    [36] XU Y, XU W, WANG Z, et al. Load balancing for ultradense networks: A deep reinforcement learning-based approach[J]. IEEE Internet of Things Journal, 2019, 6(6): 9399-9412. doi:  10.1109/JIOT.2019.2935010
    [37] ZHAO N, LIANG Y, NIYATO D, et al. Deep reinforcement learning for user association and resource allocation in heterogeneous cellular networks[J]. IEEE Transactions on Wireless Communications, 2019, 18(11): 5141-5152. doi:  10.1109/TWC.2019.2933417
    [38] MISMAR F B, EVANS B L. Deep Q-learning for self-organizing networks fault management and radio performance improvement[C]//2018 52nd Asilomar Conference on Signals, Systems, and Computers. Pacific Grove: IEEE, 2018: 1457-1461.
    [39] JUNHONG Y E, ZHANG Y. DRAG: Deep reinforcement learning based base station activation in heterogeneous networks[J]. IEEE Transactions on Mobile Computing, DOI:10.1109/TMC.2019.2922602.
    [40] LIU J, KRISHNAMACHARI B, ZHOU S, et al. DeepNap: Data-driven base station sleeping operations through deep reinforcement learning[J]. IEEE Internet of Things Journal, 2018, 5(6): 4273-4282. doi:  10.1109/JIOT.2018.2846694
    [41] WU J, YU P, FENG L, et al. 3D aerial base station position planning based on deep Q-network for capacity enhancement[C]//2019 IFIP/IEEE Symposium on Integrated Network and Service Management (IM). Washington DC: IEEE, 2019: 482-487.
    [42] VOIGT P, BUSSCHE V. The EU general data protection regulation (GDPR)[M]. Cham: Springer, 2017.
    [43] CANETTI R, FEIGE U, GOLDREICH O, et al. Adaptively secure multi-party computation[C]//Proceedings of the Twenty-Eighth annual ACM Symposium on Theory of Computing. Philadelphia: ACM, 1996: 639-648.
    [44] DWORK C. Differential privacy: A survey of results[C]//International Conference on Theory and Applications of Models of Computation. Heidelberg: Springer, 2008: 1-19.
  • [1] 胡浪涛, 杨瑞, 刘全金, 吴建岚, 嵇文, 吴磊.  深度强化学习下连续和离散相位RIS毫米波通信 . 电子科技大学学报, 2024, 53(1): 50-59. doi: 10.12178/1001-0548.2022285
    [2] 罗欣, 陈艳阳, 耿昊天, 许文波, 张民.  基于深度强化学习的文本实体关系抽取方法 . 电子科技大学学报, 2022, 51(1): 91-99. doi: 10.12178/1001-0548.2021162
    [3] 李新民, 尹宝林, 魏李莉, 张晓强.  强化学习无人机通信系统中的信息年龄优化 . 电子科技大学学报, 2022, 51(2): 213-218. doi: 10.12178/1001-0548.2021128
    [4] 高远翔, 罗龙, 孙罡.  基于强化学习的多阶段网络分组路由方法 . 电子科技大学学报, 2022, 51(2): 200-206. doi: 10.12178/1001-0548.2021260
    [5] 朱献超, 侯晓凯, 吴绍君, 祝峰.  基于情景记忆的量子深度强化学习 . 电子科技大学学报, 2022, 51(2): 170-175. doi: 10.12178/1001-0548.2022043
    [6] 李明, 胡江平, 曹晓莉.  异构有向传感器网络连通覆盖调度算法 . 电子科技大学学报, 2022, 51(4): 572-579. doi: 10.12178/1001-0548.2022001
    [7] 张凤荔, 赵佳君, 刘东, 王瑞锦.  基于深度强化学习的边云协同串行任务卸载算法 . 电子科技大学学报, 2021, 50(3): 398-404. doi: 10.12178/1001-0548.2021015
    [8] 林粤伟.  基于强化学习的LTE与WiFi异构网络共存机制 . 电子科技大学学报, 2021, 50(3): 375-381. doi: 10.12178/1001-0548.2019303
    [9] 秦爽, 赵冠群, 冯钢.  基于多智体强化学习的接入网络切片动态切换 . 电子科技大学学报, 2020, 49(2): 162-168. doi: 10.12178/1001-0548.2020049
    [10] 吴佳, 陈森朋, 陈修云, 周瑞.  基于强化学习的模型选择和超参数优化 . 电子科技大学学报, 2020, 49(2): 255-261. doi: 10.12178/1001-0548.2018279
    [11] 李润东, 李立忠, 李少谦, 宋熙煜, 何鹏.  基于稀疏滤波神经网络的智能调制识别 . 电子科技大学学报, 2019, 48(2): 161-167. doi: 10.3969/j.issn.1001-0548.2019.02.001
    [12] 史豪斌, 徐梦.  基于强化学习的旋翼无人机智能追踪方法 . 电子科技大学学报, 2019, 48(4): 553-559. doi: 10.3969/j.issn.1001-0548.2019.04.012
    [13] 冯立, 邝育军, 代泽洋, 付新川.  异构认知网中基于能效的协作技术研究 . 电子科技大学学报, 2017, 46(5): 666-672. doi: 10.3969/j.issn.1001-0548.2017.05.005
    [14] 赵静, 林丽梅.  基于分子网络的疾病基因预测方法综述 . 电子科技大学学报, 2017, 46(5): 755-765. doi: 10.3969/j.issn.1001-0548.2017.05.019
    [15] 苏恭超, 陈彬, 林晓辉, 王晖, 李乐民.  异构蜂窝网络中一种基于匈牙利算法的用户关联方法 . 电子科技大学学报, 2017, 46(2): 346-351. doi: 10.3969/j.issn.1001-0548.2017.02.005
    [16] 傅祥, 林炆标, 林文彦, 金国生, 邱显钦, 高瑄苓, 张永华.  远距医护高速智能通信之建构 . 电子科技大学学报, 2011, 40(6): 802-814. doi: 10.3969/j.issn.1001-0548.2011.06.001
    [17] 孙卓, 郑旭飞, 王文博.  负载均衡的多接入选择算法 . 电子科技大学学报, 2010, 39(4): 532-536. doi: 10.3969/j.issn.1001-0548.2010.04.012
    [18] 甄雁翔, 苏放, 寇明延, 徐惠民.  异构网络中丢包隶属度函数的构建方法 . 电子科技大学学报, 2010, 39(6): 845-849. doi: 10.3969/j.issn.1001-0548.2010.06.009
    [19] 李明河, 王健, 王小英.  基于API函数的异构PLC工程网络互联 . 电子科技大学学报, 2003, 32(4): 437-439.
    [20] 马争, 魏险峰.  智能网——网络智能化的关键技术 . 电子科技大学学报, 2000, 29(1): 10-13.
  • 加载中
图(6)
计量
  • 文章访问数:  9689
  • HTML全文浏览量:  6048
  • PDF下载量:  257
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-01-20
  • 修回日期:  2020-02-15
  • 网络出版日期:  2020-03-16
  • 刊出日期:  2020-03-01

面向智能通信的深度强化学习方法

doi: 10.12178/1001-0548.2020040
    基金项目:  国家自然科学基金(61631005,U1801261);国家重点研发计划(2018YFB1801105)
    作者简介:

    谭俊杰(1994-),男,博士生,主要从事动态频谱共享、认知无线电以及智能无线通信等方面的研究

    通讯作者: 梁应敞,E-mail:liangyc@ieee.org
  • 中图分类号: TN929.5

摘要: 在如今信息爆炸的时代,无线通信终端的激增导致无线通信网络规模剧增。同时,人们日益提高的通信需求使无线通信网络必须通过精准的按需服务来充分利用有限的资源。这二者使得传统人工建模并优化求解的网络管理方法在未来将会遇到瓶颈。幸运的是,人工智能和机器学习的出现为解决这一问题提供了新的途径。作为一种数据驱动的机器学习方法,深度强化学习能够直接学习动态环境规律并得到最优决策。因此,深度强化学习能赋予网络依据自身环境进行自我优化管理的能力,令智能通信将成为可能。本文从资源管理、接入控制以及网络维护三方面介绍了深度强化学习在无线通信上的应用,以此说明深度强化学习是实现智能通信的有效途径。

English Abstract

谭俊杰, 梁应敞. 面向智能通信的深度强化学习方法[J]. 电子科技大学学报, 2020, 49(2): 169-181. doi: 10.12178/1001-0548.2020040
引用本文: 谭俊杰, 梁应敞. 面向智能通信的深度强化学习方法[J]. 电子科技大学学报, 2020, 49(2): 169-181. doi: 10.12178/1001-0548.2020040
TAN Jun-jie, LIANG Ying-chang. Deep Reinforcement Learning for Intelligent Communications[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(2): 169-181. doi: 10.12178/1001-0548.2020040
Citation: TAN Jun-jie, LIANG Ying-chang. Deep Reinforcement Learning for Intelligent Communications[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(2): 169-181. doi: 10.12178/1001-0548.2020040
  • 随着智能手机等智能终端的普及以及各类应用的出现,人们对无线通信的速率、时延等方面都提出了更高的要求。为了满足更高的通信需求,越来越多的新技术被应用于无线通信网络中,如更高阶的编码调制方案(modulation and coding scheme)、部署缓存(cache)甚至基于无人机(unmanned aerial vehicle, UAV)的空中基站等。并进一步提出了将各类异构的无线网络进行有机整合,再按需分配提升网络整体弹性[1]。这些技术提升了无线网络的承载极限,但也增加了管理维度。与此同时,步入万物互联的时代,终端数量呈现出爆炸式的增长,导致无线网络规模日益庞大。网络规模及管理维度的双重扩增导致复杂度激增,使得传统的基于凸优化或启发式的无线网络管理方法失效。

    另一方面,近年来人工智能快速发展,其摒弃了传统的人工数学建模后求解的方法,转而利用数据驱动的机器学习方法直接对数据进行分析和处理。其中,深度学习(deep learning, DL)[2]和深度强化学习(deep reinforcement learning, DRL)[3]是最重要的两类机器学习方法。DL利用深度神经网络(deep neural network, DNN)挖掘数据中的关联关系,最终实现对未知数据的预测。因此,DL被广泛应用于计算机视觉及自然语言处理等领域。与DL不同,DRL属于机器学习的另一分支,其目的是在复杂的动态环境中进行最优决策。为了实现这一目标,DRL首先记录下环境与控制信息,然后利用DNN对历史经验进行分析并学习环境变化规律,最终根据学习到的规律得到最优策略。因此,DRL在自动化控制领域得到广泛应用。2016年,Google打造出基于DRL的AlphaGo[4]击败了韩国九段棋手李世乭,向世人证明了DRL的强大实力。

    由于信道时变等原因,无线通信网络的管理是在动态变化的无线环境中对网络的众多参数进行优化,实际上就是一个在动态环境中的最优决策问题,与DRL的设计目标相契合。因此,DRL是智能无线通信的重要赋能者。DRL强大的学习与决策能力可以对无线通信网络进行智能管理,使其在复杂的通信环境中都能够精准地匹配用户需求,最终提升网络的实际承载能力和用户通信体验。

    本文对DRL及其涉及的基础知识进行介绍,并从无线通信网络的资源管理、接入控制以及维护3方面剖析DRL如何实现智能通信,最后对目前尚未解决的开放问题进行讨论,为进一步研究提供思路。

    • 在正式介绍DRL之前,首先对它所涉及的基础知识进行回顾。DRL是一种求解马尔科夫决策过程(Markov decision process, MDP)问题的智能方法,而其技术来源于强化学习(reinforcement learning, RL)和DL。因此,本章分别介绍MDP、RL和DL。

    • MDP是一种对智能体与动态环境交互过程进行数学建模的方法[5]。其中,智能体是决策者,又称为代理。环境则是除智能体外与之关联和互动的其他事物。一般地,智能体需要通过做出各种决策并采取行动以实现自身目标,但是在采取行动的过程中会对环境产生影响,且不同环境状态下智能体得到的结果可能不同。MDP的提出正是为了分析智能体和环境的复杂交互过程。

      MDP由一系列关键要素构成,包括状态、动作、转移概率、奖赏和策略。

      状态:状态是对智能体对所处环境的描述。环境的变化可以由状态的变化来表示。状态一般表示为$s$。所有可能的状态则构成了状态空间$S$

      动作:智能体所做出的决策或所采取的行动称之为动作。动作一般表示为$a$。智能体可以采取的所有动作构成了动作空间$A$

      转移概率:智能体采取的动作可能导致环境发生变化,进而使智能体所观察到的环境状态发生改变。状态间的转移所服从的概率即为转移概率。若智能体在状态为$s$时采取动作$a$使得状态变为$s'$,转移概率可以表示为${P_a}(s,s')$

      奖赏:智能体采取的每一个动作都会使它接近或远离所设定的目标。为了衡量所采取动作的效果,智能体可从环境中观察得到奖赏值。特别的,智能体在状态为$s$时采取动作$a$使得状态变为$s'$获得的奖赏值记为${r_a}(s,s')$

      策略:智能体的决策规则称为策略,记为${\text π} $。其中,${\text π} (a|s)$表示当状态为$s$时选取动作$a$的概率。

      MDP的目标为通过优化智能体的策略$\pi $来最大化时间跨度$T$内的期望累积奖赏

      $$R={\mathbb{E}}\left[ {\sum\limits_{t=0}^T {{\gamma ^t}{r_{{a_t}}}({s_t},{s_{t+ 1}})} } \right]。$$

      式中,$\gamma $是折扣因子,其取值范围是$[0,1]$$\gamma $控制未来奖赏对智能体在做当前决策时的重要性。极端情况下,$\gamma =0$表示智能体仅最大化当前时刻的奖赏,而$\gamma {\rm{=}}1$则表示智能体的目标是最大化未来所有时刻得到的奖赏。此外,若$T$为有限值,则表示该MDP为有限时间跨度MDP,即该MDP会因达到终止态停止运行或运行到某一时刻后停止运行。相应的,$T=\infty $表示该MDP为无限时间跨度MDP。MDP的运行过程如图1所示。

      图  1  MDP运行过程

      当MDP中除策略外的其他要素均已知时,可以通过动态规划(dynamic programming, DP)来求解MDP以获得最大化$R$的最优策略${{\text π} ^*}$。典型的方法有策略迭代和值迭代。

    • 对于给定策略${\text π} $,由贝尔曼方程(Bellman’s Equation)[5]可得:

      $$ {V_{\text π} }(s)=\sum\limits_a {{\text π} (a|s)\sum\limits_{s',r}^{} {{p_a}(s,s')[{r_a}(s,s')+ \gamma {V_{\text π} }(s')]} } $$ (1)

      利用式(1)对所有状态$s \in S$不断迭代,收敛得到的${V_{\text π}}(s)$表示智能体在策略${\text π}$下,从状态$s$出发可得到的期望累积奖赏。对${V_{\text π} }(s),s \in S$迭代的过程称为策略评估。

      在对策略${\text π} $进行策略评估后,可以根据得到的${V_{\text π} }(s)$对策略进行改进。基于贪婪的方法,可以得到改进后的策略${\text π} '$

      $$ {\text π} (s)=\mathop {\arg \max }\limits_a \sum\limits_{s',r}^{} {{p_a}(s,s')[{r_a}(s,s')+ \gamma {V_{\text π} }(s')]} $$ (2)

      文献[5]证明通过不断重复地进行策略评估和策略迭代,最终得到的策略会收敛到最大化$R$的最优策略${\pi ^*}$,该方法称为策略迭代。

    • 在策略迭代中,策略评估需要利用式(1)重复迭代直至收敛,而每一次策略改进都需要先进行策略评估。因此,策略迭代的计算复杂度较高。为了解决这一问题,值迭代将策略改进融合进策略评估中,将式(1)改写为:

      $$ V(s)=\mathop {\max }\limits_a \sum\limits_{s',r}^{} {{p_a}(s,s')[{r_a}(s,s')+ \gamma V(s')]} $$ (3)

      利用式(3)对所有状态$s \in S$迭代直至收敛后,最优策略${\pi ^*}$可以通过下式得到

      $$ {{\text π} ^*}(s)=\mathop {\arg \max }\limits_a \sum\limits_{s',r}^{} {{p_a}(s,s')[{r_a}(s,s')+ \gamma V(s')]} $$ (4)

      以上介绍的两种基于DP的方法都能有效地求解MDP并获得最优策略。然而,它们都需要知道转移概率。对于无线通信系统,其系统状态变化受信道变化、用户行为等众多随机因素共同影响。这些随机变量的概率分布难以准确获得。因此,将无线通信网络中的问题建模成MDP,其转移概率通常难以获得。为了解决转移概率缺失的问题,强化学习应运而生。

    • 与需要提前知道转移概率的DP不同,RL是通过试错(trial-and-error)来学习环境中存在的规律,进而求解MDP[5]。因此,RL可在不需要知道转移概率的情况下求解MDP。目前广泛采用的RL方法可以分为基于值的方法和基于策略的方法。

    • 式(1)可分解为:

      $$ {V_{\text π} }(s)=\sum\limits_a {{\text π} (a|s){Q_{\text π} }(s,a)} $$ (5)

      其中,

      $$ {Q_{\text π} }(s,a)=\sum\limits_{s',r}^{} {{p_a}(s,s')[{r_a}(s,s')+ \gamma {V_{\text π} }(s')]} $$ (6)

      ${Q_{\text π} }(s,a)$表示智能体在策略${\text π} $下,在状态$s$采取动作$a$可得到的期望累积奖赏,称为状态-动作对$\left\langle {s,a} \right\rangle $的Q值。当策略${\text π} $为最优策略时,对于任意的状态$s \in S$$a \in A$,相应的Q值${Q^*}(s,a)$是在所有策略下获得的最大Q值。相反,若已知最大Q值${Q^*}(s,a)$,那么可以根据下式得到最优策略${{\text π}^*}$

      $$ {{\text π} ^*}(s)=\mathop {\arg \max }\limits_a {Q^*}(s,a) $$ (7)

      根据这一性质,Q学习利用智能体实际得到的Q值样本与预测Q值之间的差值(又称时间差分temporal difference)来迭代地更新Q值,最终逼近${Q^*}(s,a)$并得到最优策略${{\text π} ^*}$。具体的迭代公式为

      $$ Q(s,a)=Q(s,a)+ \alpha \left[ {{r_a}(s,s')+ \gamma \mathop {\max }\limits_a Q(s',a) - Q(s,a)} \right] $$ (8)

      式中,$\alpha $是控制Q值更新速度的学习速率。Q学习的算法伪代码如下。

      算法1 Q学习算法

      输入:$S,A,\alpha ,\gamma $

      建立表格储存$Q(s,a),\forall s \in S,a \in A$,并将所有Q值初始化为0

      for t=1 : $T$

       观察环境得到状态$s$,根据$\varepsilon $贪婪规则选择动作$a$

       采取动作$a$,并观察得到新状态$s'$和奖赏${r_a}(s,s')$

       根据式(8)更新$Q(s,a),\forall s \in S,a \in A$

       令$s=s'$

      end for

      算法1中的$\varepsilon $贪婪规则是指,智能体以$\varepsilon $的概率选取随机动作,并以$1{\rm{ - }}\varepsilon $的概率选取Q值最大的动作,即$\arg {\max _a}Q(s,a)$。前者令智能体探索未知的动作,从而学习到潜在的更好的策略,而后者则令智能体充分利用已知的知识来做出最优决策。通过改变$\varepsilon $的大小可以调整两方面的作用,使得智能体在学习速度和决策的最优性中取得平衡。

      以上介绍的Q学习是一种典型的基于值的RL方法。实际上,基于值的RL方法还有SARSA、双Q学习等,这些方法都是通过对Q值进行估计并利用Q值得到最优策略。然而,因为基于值的方法需要为所有状态-动作对建立表格储存其Q值,所以当MDP的动作或状态空间很大(或为连续空间)会产生维度爆炸的问题。为了解决这一问题,人们提出了基于策略的RL方法。

    • 在基于策略的RL方法中,动作的选取不再需要对Q值进行评估。取而代之的是直接对策略进行优化。为了实现这一目标,首先需要将策略参数化,即用一个由参数${{\theta}} $确定的函数来表示策略${\text π} $。那么,在状态$s$采取动作$a$的概率可以写为${\text π} (a|s,{{\theta}} )$。如果策略的性能可以由一个标量$J({{\theta}} )$来量度,那么为了性能最大化,${{\theta}} $应该以关于$J({{\theta}} )$梯度上升的方向更新,即

      $$ {{\theta}} '={{\theta}}+ \alpha \widehat {\nabla J({{\theta}} )} $$ (9)

      式中,$\widehat {\nabla J({{\theta}} )}$$J({{\theta}} )$梯度的一个随机估计值。由此可见,对策略进行优化就是利用梯度对决定策略的参数进行更新。因此,这类方法又称为策略梯度法。

      下面介绍策略梯度法中的一种典型算法——蒙特卡洛策略梯度法,又称为REINFORCE算法。若定义$J({{\theta}} )$为由${{\theta}} $确定策略${\text π}$下从某一状态${s_0}$出发所得到的期望累积奖赏,即${V_{{{\text π}_{{\theta}} }}}({s_0})$,文献[5]可以证明关于${{\theta}} $的梯度$\nabla J({{\theta}} )$

      $$ \nabla J({{\theta}} )={{\mathbb{E}}_{\text π} }\left[ {{G_t}\nabla \ln {\text π} \left( {{a_t}|{s_t},{{\theta}} } \right)} \right] $$ (10)

      式中,${a_t}$${s_t}$分别为$t$时刻的动作和状态;${G_t}$是从$t+ 1$时刻直至最终时刻$T$的累积奖赏,即${G_t}{\rm{=}}$$\displaystyle\sum\limits_{k=t+ 1}^T {{\gamma ^{k - t - 1}}{r_{{a_t}}}({s_t},{s_{t+ 1}})} $。那么,$\nabla J({{\theta}} )$的一个随机估计值$\widehat {\nabla J({{\theta}} )}{\rm{=}}{G_t}\nabla \ln {\text π}\left( {{a_t}|{s_t},{{\theta}} } \right)$。根据以上所述过程,REINFORCE算法的伪代码如下。

      算法2 REINFORCE算法

      输入:$\alpha ,\gamma ,{\text π} ( \cdot | \cdot ,{{\theta}} )$

      初始化${{\theta}} $

      for episode=1 : ${i_{\max }}$

      for t=1 : T

       观察状态${s_t}$,根据${\text π}( \cdot |{s_t},{{\theta}} )$选取动作${a_t}$,并观察得到新状态${s_{t+ 1}}$和奖赏${r_{{a_t}}}({s_t},{s_{t+ 1}})$

      end for

      for t=1 : T

       ${G_t}{\rm{=}}\displaystyle\sum\limits_{k=t+ 1}^T {{\gamma ^{k - t - 1}}{r_{{a_t}}}({s_t},{s_{t+ 1}})} $

       ${{\theta}} ={{\theta}}+ \alpha {\gamma ^t}{G_t}\nabla \ln {\text π} ({a_t}|{s_t},{{\theta}} )$

      end for

      end for

      在算法2中,策略是以回合(episode)为单位进行更新的。在一个回合中,智能体需要用同一策略产生共$T$个时刻的一组动作、状态和奖励。然后利用这些信息对${{\theta}} $和策略进行更新。这导致策略梯度法有两个缺点:1)策略梯度法只适用于有限时间跨度的回合制MDP,然而在实际无线通信网络中,系统的运行可能是无限时间跨度的;2)策略的更新以回合制为单位,使得策略更新速度慢、不同回合下得到的决策方差较大,即稳定性较差。以上两点使策略梯度法不便于在线部署。

      综上,虽然基于策略的方法解决了基于值的方法的维度爆炸问题,但同时也带来了新的问题。因此,人们尝试通过将DL与RL结合来解决这些问题。

    • DL是一种利用深度神经网络(deep neural network, DNN)来表征数据的关系,并最终实现拟合或分类功能的算法。因此,DNN是DL的关键。

      图2为DNN的一个典型结构。如图所示,DNN的基本组成单元是相互连接的神经元。DNN中的神经元排列具有层次结构,通常包含一个输入层、一个输出层和数个隐层。神经元间的连接强弱关系由权值决定,权值由图2中神经元间连线表示。图3示出了神经元间的信息传递过程。其中,每个神经元将与之连接的上一层神经元的输出值乘以相应的权值并求和,再通过一个激活函数将信息传递到下一层连接的神经元。激活函数一般有“sigmoid”[6]“ReLU”[7]“tanh”等。根据DNN的信息传递规则,输入数据被各层神经元逐层加工最终得到输出结果,这个过程称为正向传播。通过对比神经网络输出的预测值和真实训练数据,DNN可以调整神经网络间的权值以提高预测的准确度,这个过程称为误差反向传播。训练后的DNN可以表征数据间的关系,进而能对未知输入数据做出准确的预测。

      然而,并不是所有的DNN都能有效地挖掘数据间中存在的关联关系并对未知输入做出准确预测。实际上,神经元的连接方式,即DNN的结构,是影响DNN性能的关键因素。神经元的连接方式通常有全连接、卷积连接、池化连接和循环连接等。相应的,以上几种连接方式构成了DNN中的全连接层(fully-connected layer)、卷积层(convolutional layer)[8]、池化层(pooling layer)[8]和循环层(recurrent layer)[9]。在实际应用中,DNN的结构是由数据自身的特征来决定的。下面将对这几种构成DNN的常见层结构进行介绍。

      图  2  DNN示例

      图  3  神经元信息传递

      全连接层:全连接是DNN中神经元最简单的连接方式。如图4所示,全连接层中的神经元与相邻层的所有神经元均相连。因为全连接层的本质是特征空间的线性变换,所以它对数据的特征没有特别的要求。

      图  4  全连接层示例

      卷积层:全连接层因所有神经元的相连而导致权值过于冗余。因此,全连接层在处理某些局部特征相似的数据(如图5)时训练速度和准确率较差。卷积层的提出就是为了处理局部特征相似的数据。卷积层由神经元排列构成多个卷积核。其中,卷积核中每个神经元与上一层神经元相连时共享权值。通过权值共享,卷积层可以从输入信息中匹配与卷积核特征相同的部分,实现局部特征提取。

      图  5  卷积及池化示例

      池化层:池化层一般与卷积层一起出现于处理图像数据的DNN。在进行某些任务时,如图5分类等,图5中特征出现的具体位置不影响结果。因此,池化层被用于对卷积层输出结果的合并,标记出数据中存在的哪类特征更明显。

      循环层:当数据在时域有序列相关性时,循环层可以捕捉和利用这种相关性。如图6所示,输入到循环层的信息当处理完后会重新输入到网络中,以使得历史信息和当前信息一起被处理。在实际应用中,循环层的其他变体也得到广泛应用,如长短时记忆(long short-term memory, LSTM)层[10]等。

      图  6  循环层图示

    • DRL的基本思想就是将DL中的DNN与RL相结合,以解决RL中存在的维度爆炸、学习速度慢等问题。同样的,DRL也可以通过基于值的方法和基于策略的方法来实现。

    • 基于值的RL方法存在的主要问题是需要建立表格来储存Q值,而当动作或状态空间很大时会产生维度爆炸的问题。这导致它们无法应用或收敛速度极慢。

      为了解决这一问题,人们提出用DNN来拟合存储Q值的表格。因此,这类DNN被称为深度Q网络(deep Q-network, DQN)。若${{\theta}} $表示DNN的参数,则$Q(s,a;{{\theta}} )$表示状态-动作对$\left\langle {s,a} \right\rangle $的Q值。当DQN的参数${{\theta}} $为最优参数${{{\theta}} ^*}$时,相应的是Q值是最大的Q值,并且最优策略${{\text π} ^*}$可以由下式确定

      $$ {{\text π} ^*}(s)=\mathop {\arg \max }\limits_a Q(s,a;{{{\theta}} ^*}) $$ (11)

      为了优化${{\theta}} $得到最优参数${{{\theta}} ^*}$,需要利用智能体获得的经验来训练DQN。智能体在时刻$t$得到的经验定义为${e_t}{\rm{=}}\left\langle {{s_t},{a_t},{r_{{a_t}}}({s_t},{s_{t+ 1}}),{s_{t+ 1}}} \right\rangle $。基于该经验,在时刻$t$训练${{\theta}} $的损失函数可以定义为:

      $$ {\cal{L}}({{{\theta}} _t})={\left[ {y_t^{{\rm{target}}} - Q({s_t},{a_t};{{{\theta}} _t})} \right]^2} $$ (12)

      式中,

      $$ y_t^{{\rm{target}}}={r_{{a_t}}}({s_t},{s_{t+ 1}})+ \gamma \mathop {\max }\limits_a Q({s_t},{a_t};{{{\theta}} _{t - 1}}) $$ (13)

      参数${{\theta}} $的更新应最小化损失函数,即:

      $$ {{{\theta}} _t}=\arg \min {\cal{L}}({{\theta}} ) $$ (14)

      梯度下降法可用于式(14)中对参数${{\theta}} $的更新。

      然而,利用式(12)~式(14)训练DQN存在两个问题。首先,智能体得到的每个经验仅能用于更新一次参数${{\theta}} $,这导致数据的利用率低下。其次,利用正在训练的DQN来计算目标值,即式(13),会导致目标值随着每一次${{\theta}} $的更新而改变。而事实上,目标值是对真实Q值的估计值,不应该与${{\theta}} $高度相关。基于以上思想,文献[11]提出经验回放和拟静态目标网络(quasi-static target network)来提高DQN的训练速度、准确度和稳定性。

      在经验回放中,智能体将所有经验放入一个大小为$M$的经验池${\mathbb{M}}$中,然后在每次更新参数${{\theta}} $时从${\mathbb{M}}$抽取$B$个经验组成经验集合${\mathbb{B}}$来做批量梯度下降。经验池${\mathbb{M}}$是一个先入先出(first input first output, FIFO)的队列,若放入的经验大于$M$,则将最先放入的经验丢弃。在拟静态目标网络中,智能体建立两个DQN,一个用于训练(称为训练DQN),另一个用于计算目标值(称为目标DQN)。目标DQN和训练DQN每隔时间间隔$K$同步一次。结合这两个技术,${{\theta}} $的更新公式可以写为:

      $$ {{{\theta}} _t}=\mathop {\arg \min }\limits_{{\theta}} \frac{1}{B}\sum\limits_{e \in {{\mathbb{B}}_t}} {{{\left[ {y_e^{{\rm{target}}} - Q({s_e},{a_e};{{\theta}} )} \right]}^2}} $$ (15)

      式中,

      $$ y_e^{{\rm{target}}}{\rm{=}}{r_e}+ \gamma \mathop {\max }\limits_{a'} Q({s'_e},a';{{\theta}} ') $$ (16)

      式中,${{\theta}} '$表示目标DQN中的参数;${{\mathbb{B}}_t}$表示在时刻$t$从经验池中抽取的集合;$e{\rm{=}}\left\langle {{s_e},{a_e},{r_{{a_e}}},{{s'}_e}} \right\rangle $表示经验集合的一个经验。

      结合集合经验回放和拟静态目标网络的完整算法流程如算法3所示,称为深度Q学习(deep Q-learning)算法。该算法是目前公认基于DQN的标准DRL算法,其最初由DeepMind团队在2015年提出并证明了其在Atari游戏上可以达到或超过人类操作的水平[11]。由于Atari游戏提供的信息游戏屏幕显示的图像数据,为了处理图像数据,DeepMind团队在应用深度Q学习算法时特别设计了一个包含卷积层、池化层和全连接层的DNN作为DQN。因此,DQN的结构应当与需要处理的数据相匹配。

      算法3 深度Q学习算法

      输入: $\gamma ,B,M,K$

      初始化训练DQN参数${{\theta}} $和目标DQN参数${{\theta}} '$,令${{\theta}} '={{\theta}} $;建立一个大小为${ M}$的先入先出队列作为经验池${\mathbb{M}}$

      for t=1 : $T$

      观察环境得到状态$s$,根据$\varepsilon $贪婪规则选择动作$a$

      采取动作$a$,并观察得到新状态$s'$和奖赏${r_a}(s,s')$

      将得到的经验$s$$a$${r_a}(s,s')$$s'$组合成经验${e_t}$,并将${e_t}$放入经验池${\mathbb{M}}$

      从经验池中选取${ B}$个经验形成经验集合${{\mathbb{B}}_t}$,根据式(15)和式(16)更新${{\theta}} $

      $tod K==0$,则令${{\theta}} '={{\theta}} $

      end for

      除算法3所示的深度Q学习算法外,目前也有一些针对该算法的改进,以获得性能提升。下面简要介绍两种得到广泛应用的改进算法,包括双深度Q学习(double deep Q-learning)算法[12]和竞争深度Q学习(dueling deep Q-learning)算法[13]

      双深度Q学习:在深度Q学习中,目标值的估计是取估计的Q值的最大值,而动作的选取也是取令Q值最大的动作。因此,这会导致Q值的估计过于乐观,并且该误差会随着时间推移往后传递。为了解决这一问题,文献[12]提出采用两个DQN轮流且独立地负责动作选取和Q值估计。相应的DRL算法称为双深度Q学习算法。

      竞争深度Q学习:上面所述两种深度Q学习方法都是对Q值进行估计,也就是对动作-状态对进行评估。因此,当动作数比较多时,用于估计Q值的所需的样本数较多,导致训练时间长、决策准确度低等问题。事实上,在某些状态下,无论动作如何选取,导致的结果可能是相近的,无需对各个动作都进行准确的估计。如当无线信道较差时,无论发送端选取多大功率,接收端的信干噪比(signal to interference plus noise ratio, SINR)都达不到最低阈值。针对这种情况,文献[13]提出竞争深度Q学习。其基本思想是采用两个DQN分别对状态的价值和在给定状态下各个动作的价值优势进行评估。该文献结果显示,在动作空间较大的复杂问题中,竞争深度Q学习显示出明显的性能优势。

      以上基于值的DRL方法通过将DNN用于拟合Q值来解决维度爆炸问题,且允许状态空间为无限大。然而,这些方法在动作选取时需要在整个动作空间下遍历对应的Q值,导致它们只适用于有限大小的动作空间,即离散动作空间。针对连续动作空间的MDP,需要基于行动评论家的DRL方法来求解。

    • 虽然基于策略的RL方法通过将策略参数化来实现连续动作的选取,但是也带来了数据利用率低、决策稳定性差等问题。与此同时,基于值的方法可以利用每一步得到的经验对策略进行逐步更新,且其依据Q值进行高稳定性的决策。于是,人们提出了深度确定性策略梯度(deep deterministic policy gradient, DDPG)来将二者结合[14]。其基本思想是采用两个DNN分别作为动作家(actor)和评论家(critic)。评论家相当于基于值的方法中的Q值评估,即拟合和估计Q值,而动作家相当于基于策略方法中的策略参数化,用于找出Q值与最优动作之间的映射关系。换言之,在DDPG中,动作选取不再是选择当前状态下Q值最大的动作,而是让动作家参考评论家评估的Q值来直接选取。

      这一类包含动作家和评论家的DRL方法统称为基于动作评论家(actor-critic, AC)的DRL方法。这类方法的其他代表算法有异步优势动作评价(asynchronous advantage actor-critic, A3C)[15]、信赖域策略优化(trust region policy optimization, TRPO)[16]、近端策略优化(proximal policy optimization, PPO)[17]等。

    • 可靠高速的无线通信网络依赖于各类资源的动态协调与配置。当前,为了满足不同的通信需求,人们大量部署了蜂窝网络、无线局域网络、个人短距离通信网络等。这些网络采用了不同的无线电接入技术(radio access technology, RAT),其结构各异且拥有互不共享的独占资源,导致资源整体利用率低。此外,这些异构网络提供的服务单一,难以响应用户多样化的通信需求。为了高效地满足未来多元化的通信需求,异构网络间的资源需要高度整合并根据用户需求精准匹配。

      然而,无线环境动态变化,信道或用户需求随时间随机变化。此外,相关的资源分配问题一般都是复杂的非凸问题。这些问题都为无线网络中的资源管理增加了难度。鉴于DRL是解决动态环境中决策问题的有效方法,人们尝试将其用于管理无线通信中的各类资源,包括频谱资源、功率资源以及网络资源等。

    • 频谱资源是无线通信中最宝贵的稀缺资源。为了在有限的频谱上满足人们对高速率通信的需求,无线网络需要更弹性的频谱资源管理。根据频谱采用时分复用或频分复用的方式,频谱资源的管理也可分为时域或频域上的管理。

      对于异构网络采用时分的方式共享同一频谱,如何为不同网络进行合理的时间分配是频谱资源管理的关键问题。理想情况下,各网络应当依据其网络的用户流量需求对频谱进行弹性接入,也就是说,用户需求较大的网络可以占用更长时间的频谱进行传输。然而,异构网络间有一定的独立性,难以迅速交互信令信息来相互协调。针对这一问题,文献[18]研究了长期演进(long term evolution, LTE)蜂窝系统与无线局域网(WiFi)在缺少信令交互情况下的频谱共享问题。其中,LTE系统通过调整虚拟帧中LTE的传输时间和WiFi的传输时间来调节两个网络的频谱资源。LTE系统的目标是在满足WiFi网络流量需求的情况下最大化LTE传输时间,以最大频谱的利用率。传统的方法需要LTE系统从WiFi网络中获取其具体的流量信息后做出相应的优化。为了避免异构网络间难以实现的直接信息交互,文献[18]发现频谱信息中实际上蕴含了关于WiFi网络的流量需求等信息,因而提出利用DRL来根据频谱信息直接对传输时间进行优化。该文献创造性的利用频谱信息中一个帧的最长空闲时间来作为WiFi网络是否得到充分保护的指标。当该指标低于阈值时,说明WiFi网络的流量需求没有获得充分满足,相应的DRL奖赏值设为0,否则奖赏值为LTE系统的吞吐量。DRL的动作就是LTE的传输时间,其动作空间是将虚拟帧长离散化后的向量。DRL的状态则设计为LTE系统能观察频谱获得的频谱信息,包括一个帧中的最长空闲时间、总空闲时间、总繁忙时间、历史动作和历史奖赏。最后该文献提出了一个基于DQN的DRL算法来求解该问题。由于状态中的信息不包含图像或序列信息,其设计的DQN采用了一个包含三层全连接层作为隐层的DNN。除文献[18]外,文献[19-21]也提出了基于DRL的频谱时分接入方案。

      除时分复用外,频分复用是另一种复用方式。在这种方式下,频谱被划分成多个正交信道,进而通过为网络或用户分配信道来实现频谱资源管理。文献[22]研究了多用户的信道分配问题。在多信道多用户场景下,多个用户同时使用一个信道进行传输会导致数据包的碰撞,进而发送失败。因此,需要合理地为各个用户匹配所使用的信道,以提高成功传输的概率。该文献提出利用DRL使用户分布式地协调信道接入策略。每个用户将其在过去多个时刻的包发送历史(即包成功发送与否)作为DRL的状态。动作空间即选择发送的信道或不发送。若当前时刻的包成功发送,则奖赏设置为1,否则为0。由于状态中包含多个时刻的信息,作者在设计DQN时采用了LSTM层来捕捉数据中的时间相关性。此外,为了提高学习性能,文献[22]将竞争深度Q学习和双深度Q学习结合,采用了竞争-双深度Q学习。仿真结果表明,在没有信令交互情况下,用户总能独立地学习到一组互相避让的信道选择方式,提高了信道利用率和用户成功发送概率。

      此外,用户也可以通过智能的信道选择来规避比规避干扰。再复杂的通信环境中,用户可能会受到恶意(如干扰器)或非恶意(如电磁泄漏)的干扰,降低了用户的通信速率和使用体验。文献[23]提出了一种基于DRL的智能干扰规避方案。其利用频谱瀑布图中包含的干扰图案来预测干扰情况,进而预测并选择未受干扰的信道进行传输。作者将用户观测频谱得到的瀑布图作为状态,并设计动作空间为所有可用的信道。若用户当前时刻接收到的SINR大于阈值,则认为用户在该时刻成功发送,则设回报值为常数${C_1}$,否则为0。同时,由于切换信道会带来额外的开销。因此,若用户相邻时刻更换了信道,则设开销值为常数${C_2}$,否则为0。最终,DRL的奖赏设计为用户得到的回报值与开销值相减。由于DRL的状态是图像信息,文献[23]采用了递归卷积层(recursive convolutional layer)来设计DQN。其中,递归卷积层是作者针对频谱瀑布图中的递归特性对卷积层进行的改进,目的是降低计算复杂度和提高算法的运算速度。

    • 上一小节所介绍的频谱资源管理考虑对频谱正交使用,即用户或网络在同一时频点上不重叠。虽然正交使用频谱可以避免相互干扰,但频谱效率难以进一步提升。为最大化网络容量,应当考虑频谱的非正交接入,这就带来了干扰问题。通过功率资源分配可以进行精确的干扰管理,以获得空间复用增益。例如,当某些用户对其他用户的干扰信道较弱时,它们可以以较大功率进行传输,从而在相互干扰较小时获得较高的传输速率。

      文献[24]考虑了一个认知无线电(cognitive radio, CR)中的功率控制问题。其中,次用户(secondary user)通过占用主用户(primary user)的频谱来进行通信,提高频谱利用率。然而,主用户是该频谱的合法使用者,其通信质量不应受次用户的损害。为了使主次用户的服务质量(quality-of-service,QoS)都得到满足,作者提出了一个基于DRL的功率控制方案。在此方案中,次用户部署多个传感器在主用户周围,以感知主用户附近的接收功率。由于传感器得到的接收功率包含了信道、主次用户的发送功率等信息,通过让DRL分析传感器的数据可以学习到信道的变化与主用户的发送策略,进而调整次用户的发送功率来让主次用户的QoS都得到满足。DRL的状态设计为所有传感器获得的接收功率。此外,DRL的动作空间由将最大发送功率离散化后的所有可选功率构成。当次用户选择功率进行发送后,若主次用户的QoS都得到满足,则DRL的奖赏设置为1,否则为0。最后,深度Q学习算法被用于实现DRL,其中,一个包含三层全连接层的DNN被用作DQN。

      文献[24]针对的是单用户的功率控制问题,无法应用于多用户的场景。为此,文献[25]考虑蜂窝网络的多用户功率资源分配问题,其目标是最大化整个网络的加权总速率(weighted sum-rate,WSR)。由于用户互相干扰,WSR最大化的问题是NP-hard问题,难以用优化方法求得全局最优解。除此之外,用户间的信道状态时变且信道信息数据庞大,无法实时上传到一个中央处理单元进行运算。该文献利用DRL解决了这两个问题。首先,每个用户的奖赏值被设计为该用户自身速率与对其他用户造成的速率损失的差值,这样就将WSR最大化问题分解成了可以让各个用户分布式求解的子问题。然后,各用户的DRL状态包含了自身的信道状态、接收功率和对其他用户造成的干扰等信息。通过对这些数据分析,DRL让各用户预测其未来的信道状态以及其他用户的发送功率,从而选择一个合适的功率来最大化自身的奖赏值。作者提出的DRL算法是一个离线学习和在线部署的双层架构。在离线训练时,一个中央训练器与各个用户建立高速的回传链路。通过该链路,各个用户及时将自己的状态以及奖赏值向训练器传输并获得一个动作值。当训练完成后,每个用户可以独自利用训练好的DQN根据输入的状态得到最优的动作,不再需要回传链路交互信息。仿真结果显示,该基于DRL的方案的性能甚至可以超越传统基于优化的近似最优算法。

      文献[26]将文献[25]拓展到了多用户设备到设备(device-to-device,D2D)通信场景。文献[26]在设计DRL的状态、动作以及奖赏时考虑了多信道的情况,解决了信道与功率资源的联合分配问题。此外,文献[26]也将文献[25]所提的离线学习与在线部署的双层架构改进为在线学习及训练架构,避免了离线学习中回传信息产生的额外开销。

    • 虚拟现实(virtual reality, VR)、3D全息通信等业务的出现使得无线通信网络不再只是服务于点与点之间的信息交互,而是各类多样化业务的承载方。因此,除了频谱、功率等物理层的资源外,无线网络还包含为网络层或应用层服务的资源,如缓存资源和边缘计算资源等。因此,未来的无线通信网络必然包含多维度的网络资源,导致资源管理更为复杂并使传统方法失效。下面以缓存资源和边缘计算资源为例,介绍如何利用DRL对网络资源进行高效管理。

      为了降低用户获取数据的时延,无线网络可以在靠近用户终端的接入侧部署缓存单元来预加载热门资源。由于缓存的大小是有限的,对哪些数据进行预加载是管理缓存资源的关键问题。文献[27]提出利用DRL对用户的数据请求进行分析,并根据用户请求规律更换缓存中的文件。在该文献中,作者将DRL的状态设计为各文件被用户请求的次数,动作则是下一时刻应当被缓存的文件。若缓存的文件没有命中用户请求,网络需要为用户从云端获取文件并产生开销,此时惩罚值为获取该文件的开销,否则惩罚值为0。值得注意的是,这里并没有用到奖赏值,而是惩罚值。因此,DRL的目标是最小化期望累积惩罚。为了实现这一目标,作者将深度Q算法进行了修改,将算法3中所有对Q值的最大化和反最大化运算都更换为对Q值的最小化及反最小化运算。其采用的DQN是包含三个隐层为全连接层的DNN。仿真表明,该文献所提的DRL缓存策略比目前常用的最近最不常用(least frequently used, LFU)策略、FIFO策略,以及最近最少使用(least recently used, LRU)策略均能获得更低的开销。

      当用户需求更为多样化时,终端设备却在往小体积、低功耗的方向发展,如可穿戴设备等。显然,具有高计算复杂度的业务,如需要实时计算大量3D画面的VR等,难以由终端设备独立完成。因此,移动边缘计算(mobile edge computing, MEC)被提出用于解决这一矛盾。在MEC中,具有强大运算能力的节点被部署于网络接入侧,便于对来自于移动设备的计算请求快速应答。对于一个给定的计算任务,若让终端设备请求MEC单元远程执行,它将需要向MEC上传任务数据,带来通信时延,且需要向MEC提供者交纳服务费用。相反,终端设备本地执行计算任务则会损耗本地电能,以及较高的本地计算时延(本地运算能力通常较MEC弱)。因此,为了以最低的时延和最小的开销完成计算任务,需要合理地分配网络中的计算资源。

      文献[28]考虑了物联网(Internet of things, IoT)中的计算资源分配问题。其中,IoT设备每个时刻采集到的电能和产生的计算任务都是服从一定规律的随机变量。为了满足IoT设备的计算需求,MEC单元被部署在网络边缘。IoT设备需要决定任务在本地或在MEC单元执行。若决定在本地执行,IoT设备还需要决定分配用于计算的功率。若设备分配的计算功率越大,则任务执行速度越快,完成计算任务的时延越低,但同时电能损耗也更大。若决定将任务放在MEC执行,则IoT设备需要承受通信时延(由信道决定)和MEC设备运算的计算时延。计算任务只有在规定时间内完成时才算成功完成。为了最大化计算任务的成功完成率,该文献提出了基于DRL的计算资源分配方案。在该方案中,IoT设备利用DRL决定各个计算任务在本地执行的功率,而功率为0则表示在MEC执行。DRL的状态为当前时刻能量到达的数量,计算任务队列的长度,以及信道状态。最后,DRL的奖赏值由一个效用函数决定,其考虑了计算时延、成功/失败任务数以及MEC服务费用等因素。基于这3个DRL中的基本元素,作者利用联邦-深度Q学习算法对这个问题进行了求解。该算法是在深度Q学习的基础上加入了联邦学习(federated learning)[29],通过让多个DRL智能体同时学习来加快学习速度。

      此外,文献[30-33]也成功地将DRL用于缓存资源和计算资源的联合优化问题中,说明DRL在管理网络资源上拥有强大的应用前景。

    • 步入万物互联时代,无线通信设备的数量呈现出指数增长的趋势。与此同时,采用不同RAT的异构网络大量存在,它们均由数目众多的基站组成。特别是对于采用毫米波的网络,由于毫米波基站覆盖范围比较小,运营商需要部署大量小蜂窝基站(small-cell base station, SBS)来保证无线信号的覆盖率。这使得用户接入控制变得复杂,难以获得最优的用户与网络或基站的匹配方式。事实上,因信道变化等原因,用户需要不断切换接入的网络或基站来保持最佳的匹配。因此,接入控制又称为切换控制(handover control)。根据用户是在采用不同RAT的异构网络间切换或同一网络下的不同基站间切换,切换控制可以分为垂直切换(vertical handover)和水平切换(horizontal handover)[34]

      当采用不同RAT的异构网络相对独立时,它们的资源无法共享。此时,若各网络中的用户需求差异比较大时,它们也无法协调资源来主动地满足各用户的需求。为此,垂直切换将用户重新分配在不同的网络上,从而更合理地利用各网络的资源。文献[35]将DRL用于移动通信终端在LTE网络和WiFi网络的智能垂直切换上。其中,LTE网络和WiFi网络的服务费用不同,且终端在不同网络下传输消耗的能量也不同。因此,该文献考虑垂直切换的目标是让终端在满足传输时延要求的情况下最小化传输费用和能量开销。为了实现这一目标,DRL的状态被设计为当前时刻终端的位置和剩余发送的文件大小,而DRL的动作则是选择下一时刻传输数据使用的网络。值得注意的是,与文献[27]类似,这里没有设计奖赏值,取而代之的是惩罚值。惩罚值包含了传输费用,能量开销,以及未能在规定时间内完成传输产生的惩罚项。为了让DRL最小化惩罚值,该文献同样对深度Q学习算法进行了与文献[27]类似的修改。仿真结果表明,和基于DP的算法相比,基于DRL的接入方案可以有效地降低传输费用和能量开销。

      除垂直切换外,目前也有文献利用DRL实现基站间的智能水平切换。文献[36]考虑一个由众多SBS组成的超密集网络(ultra dense network, UDN)。传统的基站切换算法是让终端设备比较连接基站的参考信号接收功率(reference signal received power, RSRP)与其他基站的RSRP,若其他基站最强的RSRP比当前基站的RSRP大于某一阈值,则进行切换。这种切换方法虽然保证了用户接收信号的强度,但是不可避免地造成各基站负载不均,降低了拥塞基站的用户体验。某个基站的负载定义为该基站连接用户的所有请求资源块和该基站可用资源块之比。该文献提出在原有切换规则的阈值上再加入一个偏置值,然后通过调整各基站切换到其他基站的偏置值来实现负载均衡。为了实现这一目标,作者利用DRL来对偏置值进行优化。DRL的状态包含了所有基站的负载信息以及它们的边缘用户占所有用户的比值,而DRL的动作则是从各基站切换到其他基站的偏置值。DRL的奖赏设置为所有基站的最大负载的倒数。可见,该奖赏值在所有基站达到相同负载时取得最大值,因此DRL的目标是令所有基站的负载相同。由于DRL的动作包含连续值,该文献采用了A3C算法来实现DRL。此外,因为DRL的动作是一个向量,所以作者还将A3C中的动作家设计为一个含有多个输出层的DNN来输出向量值。

      文献[37]进一步尝试将接入控制与资源分配相结合,考虑了多层基站蜂窝网络中的用户接入与信道分配联合优化问题。当前蜂窝网络中的基站有宏蜂窝基站(macro base station, MBS)、SBS和微蜂窝基站(pico base station, PBS)3种。它们具有不同的发射功率,导致其覆盖范围也不同。因此,终端设备在同一个时刻可能同时接收到多个基站的信号。此时,合理地分配用户及信道可以获得最大的空间复用增益,进而最大化网络整体速率。然而,该问题是一个高度非凸的整数优化问题,难以优化求解。为此,该文献首先将该问题建模成多个智能体(即多智体)的博弈问题。其中,多智体的目标函数为自身速率和发送功率开销、切换基站开销的差值。即,各终端设备的目标是在最大化自身速率的同时,最小化发送功率和切换基站次数。基于此目标函数,作者证明了该多智体博弈存在纳什均衡点(Nash equilibrium, NE),并提出利用DRL对基站和信道进行智能选择来求解该NE。和文献[22]类似,该文献也采用竞争-双深度Q学习算法来实现DRL,并通过仿真结果证明该算法可以获得比深度Q学习算法、双深度Q学习算法更高的网络总速率。

    • 前两章分别对无线通信网络中的智能资源管理和智能接入控制相关文献进行了介绍。它们利用DRL替代原本基于优化或启发式的传统算法,以保证无线网络在大规模及复杂环境下依然能高效地运行。然而,更为复杂的网络不仅为网络高效运行带来困难,同时也极大地增加了网络维护的难度。特别是当前网络维护仍大量依赖人工参与,其高成本和不及时的响应速度难以满足未来无线通信的需求。因此,实现智能通信同样需要为网络维护赋予智能。下面将以网络故障修复、基站管理以及基站部署规划等三方面为例,说明DRL如何应用于无线通信网络的智能维护。

      随着网络规模增加,网络发生故障的概率也随之增加。传统的网络排错和修复方法需要专家的参与,修复效率比较低。文献[38]尝试将DRL应用于网络故障自我修复。在一个随机出现故障的网络中,DRL的目标是在给定的时间内通过选择正确的排错操作来清除故障。DRL的状态设计为网络中故障数的指示值,分别表示其增加、减少或不变。DRL的动作空间包含所有可以排除故障的操作。在选择动作后,DRL会得到一个由排除故障耗费时间决定的奖赏值。该文献采用了深度Q学习算法来实现DRL,并通过仿真说明基于DRL的网络故障自修复方法可以有效提升网络可用性。

      对于拥有大量基站的网络来说,用户流量的空时分布不均使得其中部分基站可能在某些时候处于空闲的状态。然而,维持空闲基站的运作同样需要耗费电能并产生成本。因此,为了提高网络能量效率和降低成本,无线网络需要依据用户流量需求动态地开启和关闭基站。鉴于流量需求是动态随机的,文献[39]提出利用DL对各基站的流量进行分析和预测,然后利用DRL根据预测的流量对基站的开关进行控制。其中,DRL的状态除了包含流量的预测值外,还包含上一时刻对于基站开关的历史决策信息。DRL的动作则是控制所有基站的开关组合。可见,动作空间将随基站数量指数增长。当基站数量比较大时,动作空间将会非常庞大。因此,该文献采用可以输出连续动作的DDPG算法来实现DRL。其中,DDPG输出的连续动作被离散化后映射为特定的基站开关组合。此外,该文献提出了一个惩罚函数,包含了用户体验损失、能量开销以及开关切换开销。最后,通过使用DDPG算法最小化该惩罚函数,可以在保证用户体验时最小化能量损耗及开关切换次数。除文献[39]外,文献[40]也提出了一个基于DRL的基站智能休眠策略,以降低网络能耗。

      对于某些人口稀疏的地区,部署大量基站来保证无线网络的覆盖率是难以实现的。同时,在固定的基站部署方式下,用户流量的空时分布不均也会导致热点区域网络堵塞的问题。因此,人们提出利用UAV作为空中基站来服务地面通信终端。然而,UAV的覆盖范围有限,且用户与空中基站的信道会随着UAV的移动而改变。这都为UAV空中基站的部署带来了难度。文献[41]提出利用DRL进行空中基站的部署规划。其中,DRL的状态包含了UAV和所有用户的当前坐标,而DRL的动作空间则是UAV可以移动的方向,包括xyz轴上的正方向及负方向,以及保持原有位置。当UAV移动到一个新的位置时,DRL的奖赏值为空中基站与地面终端设备传输数据的总速率。最后,深度Q学习算法被用于规划UAV的飞行轨迹,从而得到最优的空中基站部署规划。

    • 虽然目前初步的研究表明DRL具有赋能智能通信及满足未来无线通信需求的潜能,但是其在理论和应用上尚有一些开放问题需要解决,如分布式DRL的非平稳性、非完美数据的影响以及安全与隐私问题。

    • DRL本质上一种求解MDP的方法,而MDP描述的是单个智能体与环境的交互过程。其中,环境状态的改变是由智能体采取的动作以及环境固有的转移概率决定的。也就是说,若给定环境状态和智能体采取的动作,新的环境状态出现的概率随之固定。基于这一特性,DRL通过分析历史数据来寻找并利用环境的变化规律,从而得到最优决策。

      然而,对于未来大规模的无线网络,使用单个智能体收集网络中的所有信息并对所有参数同时做出决策将会导致信息收集困难、响应时延高等问题。因此,分布式的方案,即采用多个智能体对网络参数同时优化,是解决以上问题的有效途径。显然,当存在多个智能体时,环境状态的改变将同时被多智体各自采取的动作所影响。在此时,对于某个智能体而言,其自身所在环境的状态转移概率将不再是确定的。这就是分布式DRL中的非平稳性。由于目前的DRL算法在设计时并没有考虑多智体产生的非平稳性,因此直接将它们应用于分布式DRL可能会导致算法不收敛或结果不稳定等问题。目前采用分布式DRL方案的研究,如文献[37]尝试通过共享多智体的状态或基于博弈论的思想设计奖赏值等方法解决非平稳性的问题。虽然这些方法在求解特定问题上可以得到较好的结果,目前仍缺乏解决分布式DRL非平稳性的普适性理论。

    • DRL的学习需要智能体从外界获得足够的信息,包括观察环境得到状态以及奖赏值。在无线通信中,由于噪声的存在,智能体对环境的观察会受噪声污染。除此之外,若智能体所需的信息需要由其他设备通过回传链路反馈,其获取的信息也有可能受信道变化等随机因素影响而缺失。这类受污染或缺失的数据被称为非完美数据。目前的研究通常认为智能体所需信息都可完美获得。然而,鉴于无线通信环境的特殊性,研究非完美数据对DRL学习过程和学习结果的影响具有重要意义。

    • 作为一种数据驱动的机器学习方法,DRL在对无线网络进行优化的过程中需要对大量的数据进行分析。例如,在智能资源管理的过程中,DRL智能体需要在获取各个网络、基站甚至终端设备的信息后进行决策。此外,分布式的DRL方案也需要通过多智体之间的信息共享来缓解非平稳性。然而,在实际应用中,信息共享会带来安全与隐私的问题。例如,网络或基站的拥有者之间可能存在竞争关系,出于商业安全和保护用户隐私的考虑,它们难以进行直接的数据共享。同样的,属于不同的用户设备也存在数据共享的壁垒。

      值得注意的是,在当前人工智能快速发展的时代,数据的安全和隐私问题正在受到越来越多关注。例如,欧盟和中国分别在2018年和2019年分别出台了《通用数据保护条例》[42]和《人工智能北京共识》来规范人工智能在发展过程中产生的安全与隐私问题。为此,人们提出了多方安全计算(multi-party computation)[43]、差分隐私(differential privacy)[44]和联邦学习等方法,来解决机器学习中的数据安全与隐私问题。对于无线通信而言,如何依据无线通信的特征将它们与DRL有机结合是构建未来安全的智能无线通信网络的关键。

    • 本文对深度强化学习进行了介绍,并从资源管理、接入控制以及网络维护三个方面对目前利用深度强化学习实现智能通信的研究进展进行了总结和剖析。目前的研究结果表明深度强化学习是实现智能通信的有效方法。最后,本文对目前尚未解决的开放问题进行了讨论,为未来的研究提供有益的思路。

      本文研究工作还得到高等学校学科创新引智计划(B20064)的资助,在此表示感谢。

参考文献 (44)

目录

    /

    返回文章
    返回