深度强化学习下连续和离散相位RIS毫米波通信

胡浪涛; 杨瑞; 刘全金; 吴建岚; 嵇文; 吴磊

doi:10.12178/1001-0548.2022285

深度强化学习下连续和离散相位RIS毫米波通信

doi: 10.12178/1001-0548.2022285

1.
安庆师范大学电子工程与智能制造学院，安庆 246133

基金项目: 国家自然科学基金（62171002）；安徽省教育厅自然科学基金（KJ2020A0497）

详细信息

作者简介:
胡浪涛，博士，副教授，主要从事无线通信中的信号处理和机器学习方面的研究

通讯作者: 胡浪涛，E-mail：hulangtao@aqnu.edu.cn

中图分类号: TN928

Continuous vs Discrete: Phase Performance Comparison of RIS-Assisted Millimeter Wave Communication Based on Deep Reinforcement Learning

1.
School of Electronic Engineering and Intelligent Manufacturing, Anqing Normal University, Anqing 246133, China

摘要: 在分布式智能反射面(RIS)辅助多用户毫米波(mmWave)系统中，利用深度强化学习(DRL)理论学习并调整基站发射波束赋形矩阵和RIS相位偏转矩阵，联合优化发射波束赋形和相位偏转，实现加权和速率最大化。即在离散动作空间中，设计了功率码本与相位码本，提出了用深度Q网络(DQN)算法进行优化发射波束赋形与RIS相位偏转矩阵；在连续动作空间中，采用双延迟策略梯度(TD3)算法进行优化发射波束赋形与RIS相位偏转矩阵。仿真分析比较了在不同码本比特数下离散动作空间和连续动作空间下系统的加权和速率。与传统的凸优化算法以及迫零波束赋形随机相位偏转算法进行了对比，强化学习算法的和速率性能有明显提升，连续的TD3算法的和速率超过凸优化算法23.89%，在码本比特数目为4时，离散的DQN算法性能也优于传统的凸优化算法。
- 深度Q网络(DQN) /
- 深度强化学习 /
- 双延迟策略梯度 /
- 毫米波 /
- 智能反射面
Abstract: In this paper, in the distributed Reconfigurable Intelligence Surface (RIS) assisted multi-user millimeter wave (mmWave) system, the deep reinforcement learning (DRL) theory is used to learn and adjust transmit beamforming matrix at the base station and phase shift matrix at the RIS, and jointly optimize the transmit beamforming matrix and phase shift matrix to maximize the weighted sum-rate. Specifically, in the discrete action space, we first design the power codebook and the phase codebook, and propose the Deep Q Network(DQN) algorithm to optimize the beamforming matrix and phase shift matrix; then, in the continuous action space, the Twin Delayed Deep Deterministic (TD3) policy gradient algorithm is used to optimize the beamforming matrix and phase shift matrix. The weighted sum-rates of the system in discrete action space and continuous action space with different number of codebook bits are compare through simulation. In addition, compared with the traditional convex optimization algorithm and the zero-forcing precoding with a random PBF algorithm, the sum-rate performance of DRL algorithm is significantly improved, and the sum-rate of the continuous TD3 algorithm exceeds the convex optimization algorithm by 23.89%, and the performance of the discrete DQN algorithm exceeds the traditional convex optimization algorithm when the number of codebook bits is 4.
- deep Q network(DQN) /
- deep reinforcement learning /
- delayed deep deterministic policy gradient /
- millimeter wave /
- reconfigurable intelligence surface

图 1 RIS辅助的多用户毫米波通信系统模型

下载: 全尺寸图片幻灯片

图 2 基于DQN的离散化联合设计网络结构图

下载: 全尺寸图片幻灯片

图 3 基于TD3的连续联合设计网络结构图

下载: 全尺寸图片幻灯片

图 4 当${N_p} = 2,K = 2$时，和速率与RIS大小的关系

下载: 全尺寸图片幻灯片

图 5 基于DQN的联合设计算法收敛度

下载: 全尺寸图片幻灯片

图 6 当${N_p} = 2,K = 2,M = 20$时，基于DQN算法与基于TD3算法的系统性能比较

下载: 全尺寸图片幻灯片

图 7 TD3算法下当${N_p} = 2,M = 20$时，和速率与发射功率大小的关系

下载: 全尺寸图片幻灯片

图 8 基于TD3的联合设计算法收敛度

下载: 全尺寸图片幻灯片

图 9 TD3算法下不同折扣率下的和速率与迭代步数的关系

下载: 全尺寸图片幻灯片

图 10 TD3算法下衰减率对和速率的影响

下载: 全尺寸图片幻灯片

图 11 TD3算法下延迟步数对和速率的影响

下载: 全尺寸图片幻灯片

表 1 表格 1 DQN算法超参数描述

参数	描述	值
$\gamma $	对未来奖励的折扣率	0.6
$\mu $	网络的学习率	0.00005
${\rm{batch} }\_{\rm{size} }$	批处理数据的大小	32
${T_{{\rm{step}}} }$	目标网络延迟同步更新的步数	100
$\mathcal{M}$	经验回放缓冲池的大小	50000
$E$	回合数	1000
$T$	每回合的步数	10000

下载: 导出CSV

表 2 TD3算法超参数描述

参数	描述	值
$\gamma $	对未来奖励的折扣率	0.99
$\alpha $	更新训练评价网络的学习率	0.001
$\; \beta$	更新训练策略网络的学习率	0.0001
$\tau $	更新目标策略网络与目标价值网络的学习率	0.001
$\lambda $	训练评价网络和训练策略网络的衰减率	0.00001
${\rm{batch}}\_{\rm{size}}$	批处理数据的大小	16
$\mathcal{M}$	经验回放缓冲池的大小	100000
${T_{{\rm{step}}} }$	策略网络延迟更新的步数	4
$E$	回合数	1000
$T$	每回合的步数	10000

下载: 导出CSV

[1]	GUAN K, PENG B, HE D P, et al. Channel sounding and ray tracing for intrawagon scenario at mmwave and sub-mmwave bands[J]. IEEE Transactions on Antennas and Propagation, 2021, 69(2): 1007-1019. doi: 10.1109/TAP.2020.3016399
[2]	肖振宇, 刘珂, 朱立鹏. 无人机机间毫米波阵列通信技术[J]. 通信学报, 2022, 43(10): 196-209. XIAO Z Y, LIU K, ZHU L P. Millimeter-Wave array enabled UAV-to-UAV communication technology[J]. Journal on Communications, 2022, 43(10): 196-209.
[3]	HUANG C W, ZAPPONE A, ALEXANDROPOULOS G C, et al. Reconfigurable intelligent surfaces for energy efficiency in wireless communication[J]. IEEE Transactions on Wireless Communications, 2019, 18(8): 4157-4170. doi: 10.1109/TWC.2019.2922609
[4]	SHAO X D, YOU C S, MA W Y, et al. Target sensing with intelligent reflecting surface: Architecture and performance[J]. IEEE Journal on Selected Areas in Communications, 2022, 40(7): 2070-2084. doi: 10.1109/JSAC.2022.3155546
[5]	ZHANG Z J, DAI L L, CHEN X B, et al. Active RIS vs Passive RIS: Which will prevail in 6G?[J]. IEEE Transactions on Communications, 2023, 71(3): 1707-1725. doi: 10.1109/TCOMM.2022.3231893
[6]	HUANG C W, YANG Z H, ALEXANDROPOULOS G C, et al. Multi-hop RIS-empowered terahertz communications: A DRL-based hybrid beamforming design[J]. IEEE Journal on Selected Areas in Communications. 2021, 39(6): 1663-1677.
[7]	胡浪涛, 毕松姣, 刘全金, 等. 基于强化学习的智能超表面辅助无人机通信系统物理层安全算法[J]. 电子与信息学报, 2022, 44(7): 2407-2415. doi: 10.11999/JEIT211613 HU L T, BI S J, LIU Q J, et al. Physical layer security algorithm of reconfigurable intelligent surface-assisted unmanned aerial vehicle communication system based on reinforcement learning[J]. Journal of Electronics & Information Technology, 2022, 44(7): 2407-2415. doi: 10.11999/JEIT211613
[8]	WEI L, HUANG C W, ALEXANDROPOULOS G C, et al. Channel estimation for RIS-empowered multi-user MISO wireless communications[J]. IEEE Transactions on Communications, 2021, 69(6): 4144-4157. doi: 10.1109/TCOMM.2021.3063236
[9]	郭海燕, 杨震, 邹玉龙, 等. 基于主被动波束成形联合优化的双RIS辅助抗干扰通信方法[J]. 通信学报, 2022, 43(7): 21-30. GUO H Y, YANG Z, ZOU Y L, et al. Double-RIS assisted anti-jamming communication method based on joint active and passive beamforming optimization[J]. Journal on Communications, 2022, 43(7): 21-30.
[10]	WU Q, ZHANG R. Intelligent reflecting surface enhanced wireless network via joint active and passive beamforming[J]. IEEE Transactions on Wireless Communications, 2019, 18(11): 5394-5409. doi: 10.1109/TWC.2019.2936025
[11]	XU P, CHEN G J, YANG Z, et al. Reconfigurable intelligent surfaces-assisted communications with discrete phase shifts: how many quantization levels are required to achieve full diversity?[J]. IEEE Wireless Communications Letters, 2021, 10(2): 358-362. doi: 10.1109/LWC.2020.3031084
[12]	WU Q Q, ZHANG R. Beamforming optimization for wireless network aided by intelligent reflecting surface with discrete phase shifts[J]. IEEE Transactions on Communications, 2020, 68(3): 1838-1851. doi: 10.1109/TCOMM.2019.2958916
[13]	GE J G, LIANG Y C, JOUNG J, et al. Deep reinforcement learning for distributed dynamic MISO downlink-beamforming coordination[J]. IEEE Transactions on Communications, 2020, 68(10): 6070-6085. doi: 10.1109/TCOMM.2020.3004524
[14]	胡浪涛, 毕松姣, 刘全金, 等. 基于深度强化学习的多小区NOMA能效优化功率分配算法[J]. 电子科技大学学报, 2022, 51(3): 384-391. HU L T, BI S J, LIU Q J, et al. Multi-Cell NOMA energy efficiency optimization power allocation algorithm based on deep reinforcement learning[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(3): 384-391.
[15]	GUO H Y, LIANG Y C, CHEN J, et al. Weighted sum-rate maximization for reconfigurable intelligent surface aided wireless networks[J]. IEEE Transactions on Wireless Communications, 2020, 19(5): 3064-3076. doi: 10.1109/TWC.2020.2970061
[16]	HAN Y, TANG W K, JIN S, et al. Large intelligent surface-assisted wireless communication exploiting statistical CSI[J]. IEEE Transactions on Vehicular Technology, 2019, 68(8): 8238-8242. doi: 10.1109/TVT.2019.2923997
[17]	WANG P L, FANG J, YUAN X J, et al. Intelligent reflecting surface-assisted millimeter wave communications: Joint active and passive precoding design[J]. IEEE Transactions on Vehicular Technology, 2020, 69(12): 14960-14973. doi: 10.1109/TVT.2020.3031657
[18]	ZHAO N, LIANG Y C, NIYATO D, et al. Deep reinforcement learning for user association and resource allocation in heterogeneous cellular networks[J]. IEEE Transactions on Wireless Communications, 2019, 18(11): 5141-5152. doi: 10.1109/TWC.2019.2933417
[19]	HUANG C W, MO R H, YUEN C. Reconfigurable intelligent surface assisted multiuser miso systems exploiting deep reinforcement learning[J]. IEEE Journal on Selected Areas in Communications, 2020, 38(8): 1839-1850. doi: 10.1109/JSAC.2020.3000835
[20]	YANG H L, XIONG Z H, ZHAO J, et al. Deep reinforcement learning-based intelligent reflecting surface for secure wireless communications[J]. IEEE Transactions on Wireless Communications, 2021, 20(1): 375-388. doi: 10.1109/TWC.2020.3024860
[21]	MEI H B, YANG K, LIU Q, et al. 3D-Trajectory and phase-shift design for ris-assisted UAV systems using deep reinforcement learning[J]. IEEE Transactions on Vehicular Technology, 2022, 71(3): 3020-3029. doi: 10.1109/TVT.2022.3143839
[22]	CHU Z, HAO W M, XIAO P, et al. Intelligent reflecting surface aided multi-antenna secure transmission[J]. IEEE Wireless Communications Letters, 2020, 9(1): 108-112. doi: 10.1109/LWC.2019.2943559
[23]	SUTTON R S, BARTO A G. Reinforcement learning: An introduction[M]. Cambridge: MIT press, 2018.
[24]	FUJIMOTO S, HOOF H, MEGER D. Addressing function approximation error in actor-critic methods[C]//International Conference on Machine Learning. New York: PMLR, 2018: 1587-1596.
[25]	ZHOU W X, CUI Z F, LI B, et al. Beamforming codebook design and performance evaluation for 60GHz wireless communication[C]//2011 11th International Symposium on Communications & Information Technologies (ISCIT). Piscataway: IEEE, 2011: 30-35.
[26]	AKDENIZE M R, LIU Y P, SAMIMI M K, et al. Millimeter wave channel modeling and cellular capacity evaluation[J]. IEEE Journal on Selected Areas in Communications, 2014, 32(6): 1164-1179. doi: 10.1109/JSAC.2014.2328154

[1]	胡浪涛, 毕松姣, 刘全金, 吴建岚, 杨瑞. 基于深度强化学习的多小区NOMA能效优化功率分配算法 . 电子科技大学学报, 2022, 51(3): 384-391. doi: 10.12178/1001-0548.2021193
[2]	罗欣, 陈艳阳, 耿昊天, 许文波, 张民. 基于深度强化学习的文本实体关系抽取方法 . 电子科技大学学报, 2022, 51(1): 91-99. doi: 10.12178/1001-0548.2021162
[3]	朱献超, 侯晓凯, 吴绍君, 祝峰. 基于情景记忆的量子深度强化学习 . 电子科技大学学报, 2022, 51(2): 170-175. doi: 10.12178/1001-0548.2022043
[4]	张凤荔, 赵佳君, 刘东, 王瑞锦. 基于深度强化学习的边云协同串行任务卸载算法 . 电子科技大学学报, 2021, 50(3): 398-404. doi: 10.12178/1001-0548.2021015
[5]	吴佳, 陈森朋, 陈修云, 周瑞. 基于强化学习的模型选择和超参数优化 . 电子科技大学学报, 2020, 49(2): 255-261. doi: 10.12178/1001-0548.2018279
[6]	修越, 张忠培, 赵柏睿, 修超. 基于K学习的Sub-6GHz辅助毫米波信道信息获取 . 电子科技大学学报, 2020, 49(3): 453-457, 466. doi: 10.12178/1001-0548.2018246
[7]	谭俊杰, 梁应敞. 面向智能通信的深度强化学习方法 . 电子科技大学学报, 2020, 49(2): 169-181. doi: 10.12178/1001-0548.2020040
[8]	康凯, 高宗智. CMOS多通道芯片 . 电子科技大学学报, 2016, 45(4): 502-510. doi: 10.3969/j.issn.1001-0548.2016.04.002
[9]	傅祥, 林炆标, 林文彦, 金国生, 邱显钦, 高瑄苓, 张永华. 远距医护高速智能通信之建构 . 电子科技大学学报, 2011, 40(6): 802-814. doi: 10.3969/j.issn.1001-0548.2011.06.001
[10]	张勇, 林元根. 185GHz固态二倍频器研究 . 电子科技大学学报, 2010, 39(2): 232-235. doi: 10.3969/j.issn.1001-0548.2010.02.017
[11]	张勇, 税兰英. Q波段宽带四倍频放大组件研究 . 电子科技大学学报, 2009, 38(2): 206-209. doi: 10.3969/j.issn.1001-0548.2009.02.12
[12]	李桂萍, 徐军, 罗慎独. 毫米波高增益大功率收发组件研制 . 电子科技大学学报, 2008, 37(2): 248-250,308.
[13]	吴涛, 唐小宏, 王玲, 肖飞. 色散特性对毫米波频率步进雷达影响的研究 . 电子科技大学学报, 2008, 37(5): 685-688.
[14]	廖小丽. 毫米波生物效应的水分子谐振机理 . 电子科技大学学报, 2002, 31(1): 80-83.
[15]	胡香荣, 徐军, 薛良金. 对称单面鳍线的人工神经网络模型 . 电子科技大学学报, 2001, 30(5): 454-457.
[16]	樊勇, 唐小宏, 吴正德, 殷世昌. 适于电视广播的毫米波通信 . 电子科技大学学报, 2001, 30(5): 441-444.
[17]	唐小宏, 樊勇, 郑浩元, 张永鸿, 吴正德. 3mm波相参脉冲放大链 . 电子科技大学学报, 1999, 28(4): 378-382.
[18]	徐军, 李超, 龙毅. 一种新型毫米波集成功率合成器的研究 . 电子科技大学学报, 1999, 28(4): 374-377.
[19]	徐军, 李超, 薛良金. 毫米波E面混合集成电调振荡器 . 电子科技大学学报, 1999, 28(3): 251-254.
[20]	薛泉, 徐军, 薛良金. E面悬置介质谐振器 . 电子科技大学学报, 1997, 26(2): 148-151.

点击查看大图

图(11) / 表(2)

计量

文章访问数: 4796
HTML全文浏览量: 1216
PDF下载量: 45
被引次数: 0

全文HTML

与传统的6 GHz以下的通信相比，具有千兆赫带宽可用性的毫米波（Millimeter Wave, mmWave）通信具有更高的容量和传输速率^[1-2]。但毫米波信号的传输距离较短，且易受到障碍物的影响。因此，引入智能反射面（Reconfigurable Intelligence Surface, RIS）来增强毫米波信号的传输和接收。与有源放大转发中继不同，RIS基本由无源反射元件组成，没有RF射频单元，具有低成本、低功耗、可编程、易部署等特点^[3]。此外，RIS的每个智能超表面单元可以调整其振幅和相位参数，以增强基站（Base Station, BS）的输入信号实时反射给用户，从而经济有效地提高网络性能^[3-6]。

最近，RIS辅助通信的场景已得到了广泛的关注^[7-8]。文献[7]研究了RIS辅助的无人机通信系统的物理层安全。文献[8]将RIS部署到多用户MIMO通信中，并提出了一个基于并行因子分解的信道估计框架，以展开所产生的级联信道模型。RIS处的无源波束赋形可由BS通过RIS控制。因此，为了使RIS的增益最大化，基站和RIS的波束赋形通常是联合设计的^[9-10]。文献[9-10]的波束赋形设计均为连续相位；在文献[11-13]中，波束赋形设计问题被推广到离散相位，其中文献[11-12]研究了RIS处的离散反射波束赋形，文献[13]研究了基站处的离散发射波束赋形。大多数研究假设BS和RIS之间存在丰富的散射^[15-16]，但涉及毫米波传输时，应考虑低阶BS-RIS信道^[9]。文献[17]从mmWave的角度研究了RIS的潜在应用，其中弱BS—用户链路可通过RIS的反射增益进行补偿。

上述研究主要是通过传统凸优化算法来解决RIS的波束赋形问题，而传统凸优化算法求解问题时大多采用交替迭代的方式，求解的结果强烈依赖于初始值，且计算复杂性会因通信的复杂度增加而急速增加，对大规模系统效率较低。受深度强化学习（Deep Reinforcement Learning, DRL）可解决无线通信中具有非凸特性的复杂问题、允许通信实体学习、能够提供自主决策以及对高维数据处理等优点的启发，一些研究者尝试利用DRL来解决无线通信中的一些问题^{[13-14, 18-20]}。文献[13]研究了同构蜂窝网络中干扰信道的信道容量，利用DRL提出了一种分布式动态下行波束赋形协调方法，并根据码本设计了离散化的基站发射波束赋形矩阵。文献[14]研究了基于DRL的多小区非正交多址接入（Non-orthogonal Multiple Access, NOMA）能效优化功率分配问题。文献[18]研究了基于DRL的异构蜂窝网络中用户关联与资源分配。文献[19-20]分别研究了基于DRL的RIS 辅助多用户多输入单输出系统和RIS辅助隐蔽通信系统，并且均利用DRL联合设计基站发射波束赋形与RIS相位偏转矩阵，以提高系统性能。然而，文献[13]虽引入了RIS，但仅研究了基站处的离散发射波束赋形；文献[18]并没有引入RIS这一先进技术；文献[19-20]研究的联合设计均为连续波束赋形。此前的RIS辅助mmWave通信系统中，基于码本的离散波束赋形向量和离散相位的联合设计还未被研究。现阶段，大多数研究还是围绕连续的算法，但使用离散的算法也有其优点，离散算法的复杂度低，且连续相位和离散相位的性能对比也有很重要的意义。

基于上述研究背景，本文研究了在无直视链路的场景下分布式RIS辅助多用户mmWave通信系统，目标是实现最大化加权和速率。本文基于DRL提出两种联合优化方法，一种是基于深度Q网络（Deep Q Network, DQN）算法的离散化发射波束赋形和相位偏转矩阵联合优化方法，另一种是基于双延迟策略梯度（Delayed Deep Deterministic Policy Gradient, TD3）算法的连续发射波束赋形和相位偏转矩阵联合优化方法。本文主要研究工作如下：

1）基于DRL的RIS辅助多用户mmWave通信系统中，采用离散的动作空间，设计了功率码本和相位码本，通过DQN算法设计了发射波束赋形和相位偏转矩阵联合优化算法，实现最大化加权和速率；

2）基于DRL的RIS辅助多用户mmWave通信系统中，采用连续的动作空间，通过TD3算法设计了发射波束赋形和相位偏转矩阵联合优化算法，实现最大化加权和速率；

3）对比分析离散动作空间和连续动作空间的DRL算法的系统和速率、两种算法的复杂度，以及与传统凸优化算法、迫零随机波束赋形算法进行了仿真对比分析。