基于多智体强化学习的接入网络切片动态切换

秦爽; 赵冠群; 冯钢

doi:10.12178/1001-0548.2020049

基于多智体强化学习的接入网络切片动态切换

doi: 10.12178/1001-0548.2020049

电子科技大学通信抗干扰技术国家级重点实验室　成都　611731

基金项目: 国家自然科学基金重点项目(61631005)；广东省重点领域研发计划项目(2018B010114001)

详细信息

作者简介:
秦爽(1984-)，男，博士，副教授，主要从事无线及移动通信网络方面的研究

通讯作者: 冯钢，E-mail：fenggang@uestc.edu.cn

中图分类号: TN929.5

Dynamical Accessing Handoff by Using Multi-Agent Reinforcement Learning in Slice Based Mobile Networks

National Key Laboratory of Science and Technology on Communications, University of Electronic Science and Technology of China　Chengdu　611731

摘要: 网络切片技术将广泛应用于以5G为代表的下一代移动通信网络中，为网络中多样化的业务提供按需的网络服务。在基于切片的移动通信网络中，用户往往需要根据不断变化的网络状态，进行接入切片的动态切换，以获得更好的网络传输和服务性能。考虑到存在多个用户的网络中，某一用户的接入选择将对接入切片的可用传输资源产生影响，从而影响其他用户的接入和切换决策。因此，该文将基于网络切片的移动通信网络中多用户的接入切换建模为一个多人随机博弈问题，采用多智体强化学习的方法对该问题进行求解，并设计了一种基于分布式多智体强化学习算法的多用户接入切片动态切换机制。在此基础上，通过仿真实验验证了该切换算法性能。
- 接入切换 /
- 多智体强化学习 /
- 多人随机博弈 /
- 网络切片
Abstract: In future mobile networks, such as 5G networks, network slicing will be a promising technology to provide customizing services for different users with different transmission requirements. According to the dynamic network state in slice based mobile networks, users need to make accessing slice handoff periodically for improving the transmission performance. However, in a multi-user networks, the accessing choice of a user changes the amount of available transmission resources in the system, which impacts the accessing choices of other users. Thus, in this paper, we model the multi-user handoff problem in slice based mobile networks as a multi-agent random game. Then, we use multi-agent reinforcement learning (MARL) to solve this game, and propose a multi-user accessing handoff algorithm based on distributed MARL method. The numerical results validate the performance of our proposed multi-user accessing handoff algorithm in slice based mobile networks.
- accessing handoff /
- MARL /
- multi-agent random game /
- network slices

图 1 网络模型

下载: 全尺寸图片幻灯片

图 2 累积回报

下载: 全尺寸图片幻灯片

图 3 系统吞吐量

下载: 全尺寸图片幻灯片

图 4 累积切换次数

下载: 全尺寸图片幻灯片

图 5 累积回报vs.切换开销

下载: 全尺寸图片幻灯片

图 6 系统吞吐量vs.切换开销

下载: 全尺寸图片幻灯片

图 7 算法收敛速度

下载: 全尺寸图片幻灯片

图 8 Q值函数收敛情况

下载: 全尺寸图片幻灯片

表 1 仿真实验参数

仿真参数	参数定义	取值
M	基站数量	3
N	切片数量	2
UEs	用户数量	<8
$b_{m,n}^{\max }$	切片最大服务速率	U[0,10]
${K_c}$	切换开销	1
α	学习率	0.2
ε	探索参数	0.1
γ	折扣因子	0.9
λ	到达速率	（2,1,1）
μ	离开速率	（1,2,1）

下载: 导出CSV

[1]	MARSCH P, SILVA I D, BULAKCI O, et al. 5G radio access network architecture: Design guidelines and key considerations[J]. IEEE Communications Magazine, 2016, 54(11): 24-32. doi: 10.1109/MCOM.2016.1600147CM
[2]	ORDONEZ-LUCENA J, AMEIGEIRAS P, LOPEZ D, et al. Network slicing for 5G with SDN/NFV: Concepts, architectures, and challenges[J]. IEEE Communications Magazine, 2017, 55(5): 80-87. doi: 10.1109/MCOM.2017.1600935
[3]	A N, X, ZHOU C, TRIVISONNO R, et al. On end to end network slicing for 5G communication systems[J]. Transactions on Emerging Telecommunications Technologies, 2017, 28(4): 1-11.
[4]	WANG G, FENG G, QUEK T Q, et al. Reconfiguration in network slicing optimizing the profit and performance[J]. IEEE Trans on Network and Service Management, 2019, 16(2): 591-605. doi: 10.1109/TNSM.2019.2899609
[5]	ARANI A H, OMIDI M J, MEHBODNIYA A, et al. A handoff algorithm based on estimated load for dense green 5G networks[C]//GLOBECOM’15: Proceeding of the 2015 IEEE Global Communications. San Diego: IEEE Press, 2015: 1-7.
[6]	SUN Y, FENG G, QIN S, et al. The SMART handoff policy for millimeter wave heterogeneous cellular networks[J]. IEEE Trans on Mobile Computing, 2018, 17(6): 1456-1468. doi: 10.1109/TMC.2017.2762668
[7]	ZGOU G, PETER L, GAO H. A network controlled handover mechanism and its optimization in LTE heterogeneous networks[C]//The 2013 IEEE Wireless Communications and Networking Conference. Shanghai: IEEE Press, 2013: 1915-1919.
[8]	LEEM H, KIM J, SUNG D K, et al. A novel handover scheme to support small-cell users in a HetNet environment[C]//The 2015 IEEE Wireless Communications and Networking Conference. New Orleans: IEEE Press, 2015: 1978-1983.
[9]	JIANG W, FENG G, QIN S, et al. Multi-agent reinforcement learning for efficient content caching in mobile D2D networks[J]. IEEE Trans on Wireless Communications, 2019, 18(3): 1610-1622. doi: 10.1109/TWC.2019.2894403
[10]	NOWE A, VRANCX P, HAUWERE Y M. Game theory and multi-agent reinforcement learning[M]. Reinforcement Learning. Berlin, Heidelberg: Springer, 2012.
[11]	YAN M, FENG G, ZHOU J. Smart multi-RAT access based on multi-agent reinforcement learning[J]. IEEE Trans on Vehicular Technology, 2018, 67(5): 4539-4551. doi: 10.1109/TVT.2018.2793186
[12]	SAAD H, MOHAMED A, ELBATT T. Distributed cooperative Q-learning for power allocation in cognitive femtocell networks[C]//The 2012 IEEE Vehicular Technology Conference (VTC Fall). Quebec City: IEEE, 2012: 1-5.
[13]	SHOHAM Y, POWERS R, and GRENAGER T. Multi-agent reinforcement learning: A critical survey[R]. Stanford: Stanford University, 2003.
[14]	HU J and WELLMAN M P. Nash Q-learning for general-sum stochastic games[J]. Journal of Machine Learning Research, 2003, 4(6): 1039-1069.
[15]	SZEPESVARI C. Algorithms for reinforcement learning[J]. Synthesis Lectures on Artificial Intelligence and Machine Learning, 2010, 4(1): 1-103.

[1]	陈继刚, 王晓康, 康永兴, 关亚彬, 董学刚, 张子路. 改进网络模型的局部骨切片图像重构 . 电子科技大学学报, 2023, 52(1): 23-29. doi: 10.12178/1001-0548.2022200
[2]	胡浪涛, 毕松姣, 刘全金, 吴建岚, 杨瑞. 基于深度强化学习的多小区NOMA能效优化功率分配算法 . 电子科技大学学报, 2022, 51(3): 384-391. doi: 10.12178/1001-0548.2021193
[3]	高远翔, 罗龙, 孙罡. 基于强化学习的多阶段网络分组路由方法 . 电子科技大学学报, 2022, 51(2): 200-206. doi: 10.12178/1001-0548.2021260
[4]	林粤伟. 基于强化学习的LTE与WiFi异构网络共存机制 . 电子科技大学学报, 2021, 50(3): 375-381. doi: 10.12178/1001-0548.2019303
[5]	谭俊杰, 梁应敞. 面向智能通信的深度强化学习方法 . 电子科技大学学报, 2020, 49(2): 169-181. doi: 10.12178/1001-0548.2020040
[6]	杜波, 秦大同, 刘永刚, 胡园园. 单电机重度混合动力系统模式切换协调控制策略 . 电子科技大学学报, 2018, 47(5): 793-800. doi: 10.3969/j.issn.1001-0548.2018.05.025
[7]	廖丹, 孙罡, 杨晓玲, 虞红芳. 车载自组织网络单接口多信道的切换方法 . 电子科技大学学报, 2015, 44(2): 227-232. doi: 10.3969/j.issn.1001-0548.2015.02.012
[8]	马华, 刘雪, 刘振华, 乔丹丹. 基于云存储的高效F-HMIPv6切换协议 . 电子科技大学学报, 2014, 43(2): 231-234. doi: 10.3969/j.issn.1001-0548.2014.02.014
[9]	杨平, 余旖, 肖悦, 李少谦. 基于传输模式切换的新型自适应空间调制算法 . 电子科技大学学报, 2013, 42(5): 661-666. doi: 10.3969/j.issn.1001-0548.2013.05.004
[10]	汪海玲, 郝玉洁, 白敬培. 内容管理信息系统中访问控制方案的切换 . 电子科技大学学报, 2013, 42(5): 749-752. doi: 10.3969/j.issn.1001-0548.2013.05.020
[11]	陈勇, 乐登. 纯电动汽车直流双电源无缝切换技术 . 电子科技大学学报, 2013, 42(6): 885-889. doi: 10.3969/j.issn.1001-0548.2013.06.014
[12]	王晓喃, 钱焕延. 6LoWPAN无线传感器网络无缝移动切换方案 . 电子科技大学学报, 2013, 42(3): 415-419. doi: 10.3969/j.issn.1001-0548.2013.01.019
[13]	王晓喃, 钱焕延. 车载网移动切换方案 . 电子科技大学学报, 2013, 42(5): 753-756. doi: 10.3969/j.issn.1001-0548.2013.05.021
[14]	张霖, 邱述威, 黄建, 周健. 邻居信息结构实现移动IPv6快速切换的机制 . 电子科技大学学报, 2011, 40(4): 602-606. doi: 10.3969/j.issn.1001-0548.2011.04.026
[15]	罗洪艳, 杨维萍, 郑小林, 侯文生, 胡南, 廖彦剑. 小鼠切片图像自动去背景方法的研究 . 电子科技大学学报, 2011, 40(4): 625-629. doi: 10.3969/j.issn.1001-0548.2011.03.031
[16]	陈兵, 王寿国, 钱红燕. WLAN环境下移动点切换时机选择算法 . 电子科技大学学报, 2009, 38(2): 245-248. doi: 10.3969/j.issn.1001-0548.2009.02.21
[17]	孙仁云, 李治. 模糊软切换控制的汽车SBC研究 . 电子科技大学学报, 2008, 37(2): 313-316.
[18]	刘严静, 苟定勇, 吴诗其. 低轨卫星移动通信系统馈电链路切换方案 . 电子科技大学学报, 2007, 36(2): 164-166,175.
[19]	吴乐, 朱立东, 吴诗其. 多业务低轨道卫星通信系统的一种切换方案 . 电子科技大学学报, 2005, 34(4): 456-459.
[20]	王定伟, 朱立东, 吴诗其. 一种双层小区结构中的切换控制策略 . 电子科技大学学报, 2003, 32(2): 116-120,132.

点击查看大图

图(8) / 表(1)

计量

文章访问数: 6570
HTML全文浏览量: 2497
PDF下载量: 90
被引次数: 0

全文HTML

以5G为代表的未来移动通信系统，将广泛采用SDN和NFV技术，通过构建软件定义的移动通信网络，为用户提供灵活按需的网络传输服务^[1-2]。在软件定义的移动通信网络架构下，将采用网络切片技术，来满足多样化业务的差异化服务需求，也越来越成为研究者的共识^[2-4]。每个端到端网络切片服务于网络中某一类具有特定需求的业务，在逻辑功能层面对应相互独立的端到端虚拟网络，多个切片对应的不同逻辑虚拟网络，将通过映射部署到相同的物理网络之上。

当移动用户到达网络时，需要选择一个满足自身业务服务需求的切片接入网络。在实际的网络中，网络条件和用户业务需求动态变化，使得用户到不同接入站点的信道条件以及不同切片中的可用资源情况不断变化。因此，为了保证用户的接入和传输性能，需要根据用户的接入信道条件和可用资源情况，进行用户接入切片的动态切换。在传统的移动通信网络中，用户的接入切换只需要考虑从一个接入站点切换到另一个接入站点。而在基于切片的软件定义移动通信网络中，一个接入站点上往往部署了多个不同的网络切片，而同一切片可能覆盖多个不同的接入站点。由此，用户与接入站点二者之间的接入选择和切换问题，就变成了用户、切片和接入站点三者之间的优化匹配问题。

在移动通信网络中，用户的接入切换一直是研究热点^[5-8]。但现有的研究主要关注传统移动通信网络中的用户切换问题，而对于如何在基于切片的软件定义移动通信网络中，进行用户接入切片的动态优化切换，保障用户业务的服务性能，还少有涉及。同时，在实际的通信系统中，切片的可用传输资源有限，接入同一切片的多个用户将竞争有限的传输资源。某一用户的接入选择，会改变接入切片中可用传输资源数量，进而对其他用户的接入和传输性能产生影响。因此，需要综合考虑网络中多个用户的接入决策之间的相互制约和影响关系，从提升多个用户整体传输性能的角度，设计多用户协同的接入切片动态切换机制。

本文重点关注了基于网络切片的软件定义移动网络中，移动用户接入切片的动态优化选择和切换问题。首先，考虑到多个用户共存的网络中，不同用户的接入选择将相互影响相互制约，结合移动通信应用场景下，动态的网络条件和业务需求对用户接入决策的影响，将网络中多个用户的接入切换建模为一个多人随机博弈问题。然后，通过多智体强化学习(multi-agent reinforcement learning, MARL)方法^[9-11]对该问题进行求解，并提出了一种基于分布式多智体强化学习^[12]的多用户接入切换算法。在此基础上，通过仿真实验，验证本文提出算法的性能。

5. 结束语

本文研究了面向网络切片的移动网络中，移动用户接入切片的动态优化切换问题。考虑到网络中，多个用户之间的相互影响和制约关系，将多用户协同的接入切片切换过程建模为一个多人随机博弈问题。在此基础上，设计了基于多智体强化学习的多用户接入选择和切换算法。仿真实验的结果证明，本文提出的算法能够在提升网络服务性能的同时降低网络中的切换开销。

参考文献 (15)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于多智体强化学习的接入网络切片动态切换

doi: 10.12178/1001-0548.2020049

作者简介:
秦爽(1984-)，男，博士，副教授，主要从事无线及移动通信网络方面的研究

通讯作者: 冯钢，E-mail：fenggang@uestc.edu.cn

Dynamical Accessing Handoff by Using Multi-Agent Reinforcement Learning in Slice Based Mobile Networks

计量

基于多智体强化学习的接入网络切片动态切换

doi: 10.12178/1001-0548.2020049

电子科技大学通信抗干扰技术国家级重点实验室　成都　611731

作者简介:
秦爽(1984-)，男，博士，副教授，主要从事无线及移动通信网络方面的研究

通讯作者: 冯钢，E-mail：fenggang@uestc.edu.cn

English Abstract

Dynamical Accessing Handoff by Using Multi-Agent Reinforcement Learning in Slice Based Mobile Networks

National Key Laboratory of Science and Technology on Communications, University of Electronic Science and Technology of China　Chengdu　611731

全文HTML

2.1. 多用户切换策略

2.2. 多用户随机博弈模型

3.1. MARL方法

3.2. 基于分布式多智体Q-Learning的切换算法

3.3. 算法复杂度

目录

期刊在线

编辑办公

友情链接

留言板

基于多智体强化学习的接入网络切片动态切换

doi: 10.12178/1001-0548.2020049

作者简介: 秦爽(1984-)，男，博士，副教授，主要从事无线及移动通信网络方面的研究

通讯作者: 冯钢，E-mail：fenggang@uestc.edu.cn

Dynamical Accessing Handoff by Using Multi-Agent Reinforcement Learning in Slice Based Mobile Networks

计量

出版历程

基于多智体强化学习的接入网络切片动态切换

doi: 10.12178/1001-0548.2020049

电子科技大学通信抗干扰技术国家级重点实验室 成都 611731

作者简介: 秦爽(1984-)，男，博士，副教授，主要从事无线及移动通信网络方面的研究

通讯作者: 冯钢，E-mail：fenggang@uestc.edu.cn

English Abstract

Dynamical Accessing Handoff by Using Multi-Agent Reinforcement Learning in Slice Based Mobile Networks

National Key Laboratory of Science and Technology on Communications, University of Electronic Science and Technology of China Chengdu 611731

全文HTML

2.1. 多用户切换策略

2.2. 多用户随机博弈模型

3.1. MARL方法

3.2. 基于分布式多智体Q-Learning的切换算法

3.3. 算法复杂度

目录

期刊在线

编辑办公

友情链接

作者简介:
秦爽(1984-)，男，博士，副教授，主要从事无线及移动通信网络方面的研究

电子科技大学通信抗干扰技术国家级重点实验室　成都　611731

作者简介:
秦爽(1984-)，男，博士，副教授，主要从事无线及移动通信网络方面的研究

National Key Laboratory of Science and Technology on Communications, University of Electronic Science and Technology of China　Chengdu　611731