-
与传统的6 GHz以下的通信相比,具有千兆赫带宽可用性的毫米波(Millimeter Wave, mmWave)通信具有更高的容量和传输速率[1-2]。但毫米波信号的传输距离较短,且易受到障碍物的影响。因此,引入智能反射面(Reconfigurable Intelligence Surface, RIS)来增强毫米波信号的传输和接收。与有源放大转发中继不同,RIS基本由无源反射元件组成,没有RF射频单元,具有低成本、低功耗、可编程、易部署等特点[3]。此外,RIS的每个智能超表面单元可以调整其振幅和相位参数,以增强基站(Base Station, BS)的输入信号实时反射给用户,从而经济有效地提高网络性能[3-6]。
最近,RIS辅助通信的场景已得到了广泛的关注[7-8]。文献[7]研究了RIS辅助的无人机通信系统的物理层安全。文献[8]将RIS部署到多用户MIMO通信中,并提出了一个基于并行因子分解的信道估计框架,以展开所产生的级联信道模型。RIS处的无源波束赋形可由BS通过RIS控制。因此,为了使RIS的增益最大化,基站和RIS的波束赋形通常是联合设计的[9-10]。文献[9-10]的波束赋形设计均为连续相位;在文献[11-13]中,波束赋形设计问题被推广到离散相位,其中文献[11-12]研究了RIS处的离散反射波束赋形,文献[13]研究了基站处的离散发射波束赋形。大多数研究假设BS和RIS之间存在丰富的散射[15-16],但涉及毫米波传输时,应考虑低阶BS-RIS信道[9]。文献[17]从mmWave的角度研究了RIS的潜在应用,其中弱BS—用户链路可通过RIS的反射增益进行补偿。
上述研究主要是通过传统凸优化算法来解决RIS的波束赋形问题,而传统凸优化算法求解问题时大多采用交替迭代的方式,求解的结果强烈依赖于初始值,且计算复杂性会因通信的复杂度增加而急速增加,对大规模系统效率较低。受深度强化学习(Deep Reinforcement Learning, DRL)可解决无线通信中具有非凸特性的复杂问题、允许通信实体学习、能够提供自主决策以及对高维数据处理等优点的启发,一些研究者尝试利用DRL来解决无线通信中的一些问题[13-14, 18-20]。文献[13]研究了同构蜂窝网络中干扰信道的信道容量,利用DRL提出了一种分布式动态下行波束赋形协调方法,并根据码本设计了离散化的基站发射波束赋形矩阵。文献[14]研究了基于DRL的多小区非正交多址接入(Non-orthogonal Multiple Access, NOMA)能效优化功率分配问题。文献[18]研究了基于DRL的异构蜂窝网络中用户关联与资源分配。文献[19-20]分别研究了基于DRL的RIS 辅助多用户多输入单输出系统和RIS辅助隐蔽通信系统,并且均利用DRL联合设计基站发射波束赋形与RIS相位偏转矩阵,以提高系统性能。然而,文献[13]虽引入了RIS,但仅研究了基站处的离散发射波束赋形;文献[18]并没有引入RIS这一先进技术;文献[19-20]研究的联合设计均为连续波束赋形。此前的RIS辅助mmWave通信系统中,基于码本的离散波束赋形向量和离散相位的联合设计还未被研究。现阶段,大多数研究还是围绕连续的算法,但使用离散的算法也有其优点,离散算法的复杂度低,且连续相位和离散相位的性能对比也有很重要的意义。
基于上述研究背景,本文研究了在无直视链路的场景下分布式RIS辅助多用户mmWave通信系统,目标是实现最大化加权和速率。本文基于DRL提出两种联合优化方法,一种是基于深度Q网络(Deep Q Network, DQN)算法的离散化发射波束赋形和相位偏转矩阵联合优化方法,另一种是基于双延迟策略梯度(Delayed Deep Deterministic Policy Gradient, TD3)算法的连续发射波束赋形和相位偏转矩阵联合优化方法。本文主要研究工作如下:
1)基于DRL的RIS辅助多用户mmWave通信系统中,采用离散的动作空间,设计了功率码本和相位码本,通过DQN算法设计了发射波束赋形和相位偏转矩阵联合优化算法,实现最大化加权和速率;
2)基于DRL的RIS辅助多用户mmWave通信系统中,采用连续的动作空间,通过TD3算法设计了发射波束赋形和相位偏转矩阵联合优化算法,实现最大化加权和速率;
3)对比分析离散动作空间和连续动作空间的DRL算法的系统和速率、两种算法的复杂度,以及与传统凸优化算法、迫零随机波束赋形算法进行了仿真对比分析。
-
本节主要介绍两种联合设计算法,一种是在离散动作空间中,利用图2所示的DQN神经网络结构,设计了功率码本与相位码本,提出了用DQN算法进行联合优化发射波束赋形与RIS相位偏转矩阵;另一种是在连续动作空间中,利用图3所示的TD3神经网络结构,采用TD3算法进行联合优化发射波束赋形与RIS相位偏转矩阵。
-
本小节利用DQN算法处理离散动作空间问题,最大化加权和速率。DQN算法中网络均为四层前馈神经网络。在评价网络的输出层放置一个归一化过程,以满足功率约束条件。DQN的关键组件定义如下。
1) 状态:当前t时刻的状态
${S_t}$ 包含所有用户的信道信息${\boldsymbol{W}}_g^{(t)},{\boldsymbol{h}}_{g,k}^{(t)},\forall g,k$ ,以及t−1时刻的动作${\boldsymbol{\Phi}} _g^{(t - 1)},{\boldsymbol{p}}_k^{(t - 1)},\forall g,k$ 。因此,${S_t}$ 可定义为:${S_t} = [{\boldsymbol{W}}_g^{(t)}, {\boldsymbol{h}}_{g,k}^{(t)},{\boldsymbol{\Phi}} _g^{(t - 1)},{\boldsymbol{p}}_k^{(t - 1)}]^{\rm{T}},\forall g,k$ 。2) 动作:当前t时刻的动作
${A_t}$ 包括发射波束赋形${\boldsymbol{p}}_k^{(t)}$ 和RIS相位偏转${\boldsymbol{\varPhi }}_g^{(t)}$ ,则${A_t}$ 可定义为:${A_t} = {[{\boldsymbol{\varPhi}} _g^{(t)},{\boldsymbol{p}}_k^{(t)}]^{\rm{T}}},\forall g,k$ 。而DQN处理的动作为离散的,因此将动作进行离散化处理。对于${\boldsymbol{p}}_k^{(t)}$ ,首先将其拆分为两部分:式中,
$\sqrt {q_g^{(t)}} = {\left\| {{\boldsymbol{p}}_k^{(t)}} \right\|^2}$ 代表BS在t时刻的发射功率,且满足$0 \leqslant q_g^{(t)} \leqslant {P_t}$ ;$\tilde {\boldsymbol{p}}_k^{(t)}$ 代表发射波束的方向,$\tilde {\boldsymbol{p}}_k^{(t)} \in [0,2{\text{π}})$ 。将BS的可用发射功率电平在0~${P_t}$ 间均匀取${q_{{\rm{pow}}}}$ 个值,并将所选功率电平集合定义为功率集$\mathcal{P} = \left\{ 0,\dfrac{1}{{{q_{{\rm{pow}}}} - 1}}{P_t},\dfrac{2}{{{q_{{\rm{pow}}}} - 1}}{P_t},\cdots,{P_t}\right\}$ 。此外,定义一个由${q_{{\rm{code}}}}$ 个码向量${{\boldsymbol{c}}_q} \in {\mathbb{C}^{N \times 1}}$ 组成的并覆盖$\tilde {\boldsymbol{p}}_k^{(t)}$ 在$[0,2{\text{π}} )$ 上任意方向的码本${\boldsymbol{\mathcal{C}}}$ ,其中$q \in \{ 0,1,\cdots, {q_{{\rm{pow}}}} - 1\}$ 。令码本矩阵为${\boldsymbol{\mathcal{C}}} = [{{\boldsymbol{c}}_0},{{\boldsymbol{c}}_1},\cdots,{{\boldsymbol{c}}_{{q_{{\rm{code}}}} - 1}}] \in {\mathbb{C}^{N \times {q_{{\rm{code}}}}}}$ ,${\boldsymbol{\mathcal{C}}}$ 中的每一列代表波束的一个方向。本文采用了文献[25]中的码本矩阵。用$ \mathcal{C}[n,q] $ 代表第$q$ 个码中的第$n$ 个天线元素的相位偏转,$\mathcal{C}[n,q] = \dfrac{1}{{\sqrt N }}\exp \left( {{\rm{j}}\dfrac{{2{\text{π}}}}{S}\left\lfloor {\dfrac{{n\text{mod} \left( {q + \dfrac{{{q_{{\rm{code}}}}}}{2},{q_{{\rm{code}}}}} \right)}}{{{{{q_{{\rm{code}}}}} \mathord{\left/ {\vphantom {{{q_{{\rm{code}}}}} S}} \right. } S}}}} \right\rfloor } \right)$ ,其中,$S$ 代表每个天线元件的可用相位值的数量。因此,BS可以分别从功率集$\mathcal{P}$ 与码本${\boldsymbol{\mathcal{C}}}$ 中选取$q_g^{(t)}$ 与${{\boldsymbol{c}}^{(t)}}$ 来确定其波束赋形矩阵。3) 奖励:在t时刻,通过给定的瞬时信道信息
${\boldsymbol{W}}_g^{(t)},{\boldsymbol{h}}_{g,k}^{(t)},\forall g,k$ 以及从评价网络得到的动作${\boldsymbol{\varPhi}} _g^{(t)},{\boldsymbol{p}}_k^{(t)}$ 可确定奖励,奖励设置为系统的和速率。DQN优化算法见算法1。
算法1:离散化发射波束赋形与RIS相位偏转联合设计算法
输入:
${\boldsymbol{W}}_g^{(t)},{\boldsymbol{h}}_{g,k}^{(t)},\forall g,k$ 输出:最优动作
$A = \{ {{\boldsymbol{\varPhi}} _g},{\boldsymbol{P}}\}$ ,Q值函数初始化:回合数E,每回合时隙T,目标网络参数
${\theta ^\prime }$ ,评价网络参数$\theta $ ,经验回放缓冲池M,发射波束赋形矩阵P,相位偏转矩阵${{\boldsymbol{\varPhi}} _g}$ for
$i = 0,1,\cdots ,E - 1$ do收集初始状态
${S_0} = \{ {{\boldsymbol{W}}_g},{{\boldsymbol{h}}_{g,k}}\} ,\forall g,k$ for
$j = 0,1,\cdots ,T - 1$ do根据
$ \varepsilon - $ 贪婪策略选择动作${A_t}$ ;与环境交互得到
${A_t}$ 对应的奖励${R_t}$ ,并得到下一时刻的状态${S_{t + 1}}$ ;将
${S_t}$ 、${A_t}$ 、${R_t}$ 和${S_{t + 1}}$ 放入回放缓冲池M中;从M中随机抽取一批数据
$\{ {S_t},{A_t},{R_t},{S_{t + 1}}\} $ ;根据式(10)计算损失函数;
利用损失函数梯度更新评价网络参数
$\theta $ ;每隔
${T_{{\rm{step}}}}$ 步,更新一次目标网络参数${\theta ^\prime }$ ;更新状态,将神经网络的输入设置为
${S_{t + 1}}$ 。end
end
DQN算法的网络参数设置见表1。
参数 描述 值 $\gamma $ 对未来奖励的折扣率 0.6 $\mu $ 网络的学习率 0.00005 ${\rm{batch} }\_{\rm{size} }$ 批处理数据的大小 32 ${T_{{\rm{step}}} }$ 目标网络延迟同步更新的步数 100 $\mathcal{M}$ 经验回放缓冲池的大小 50000 $E$ 回合数 1000 $T$ 每回合的步数 10000 -
本小节利用TD3算法处理连续动作空间问题,最大化加权和速率。TD3算法中Actor网络与Critic网络都是四层前馈神经网络。为满足功率约束条件,在隐藏层和Actor网络的输出层放置归一化过程。TD3的关键组件定义如下:
1) 状态:TD3算法中的状态组成与DQN算法相似,不同之处在于t−1时刻的动作为连续值,
${S_t} = {[{\boldsymbol{W}}_g^{(t)},{\boldsymbol{h}}_{g,k}^{(t)},{\boldsymbol{\varPhi}} _g^{(t - 1)},{\boldsymbol{p}}_k^{(t - 1)}]^{\rm{T}}},\forall g,k$ 。2) 动作:TD3算法也将发射波束赋形与相位偏转作为策略网络的输出。智能体通过强化学习选择动作
${A_t} = {[{\boldsymbol{\varPhi}} _g^{(t)},{\boldsymbol{p}}_k^{(t)}]^{\rm{T}}},\forall g,k$ 。3) 奖励:与DQN算法奖励计算方式相同,以和速率作为奖励。
TD3优化算法见算法2。
算法2:连续发射波束赋形与RIS相位偏转联合设计算法
输入:
${\boldsymbol{W}}_g^{(t)},{\boldsymbol{h}}_{g,k}^{(t)},\forall g,k$ 输出:最优动作
$A = \{ {{\boldsymbol{\varPhi}} _g},{\boldsymbol{P}}\}$ ,Q值函数初始化:回合数
$E$ ,每回合时隙$T$ ,策略网络参数$\varphi $ ,目标策略网络参数${\varphi ^\prime }$ ,两个评价网络参数${\theta _1}$ 与${\theta _2}$ ,两个目标评价网络参数$\theta _1^\prime $ 与$\theta _2^\prime $ ,经验回放缓冲池$\mathcal{M}$ ,发射波束赋形矩阵${\boldsymbol{P}}$ ,相位偏转矩阵${{\boldsymbol{\varPhi}} _g}$ for
$i = 0,1,\cdots ,E - 1$ do$n = 0$ ;收集初始状态
${S_0} = \{ {{\boldsymbol{W}}_g},{{\boldsymbol{h}}_{g,k}}\} ,\forall g,k$ ;for
$j = 0,1,\cdots ,T - 1$ do以
${S_t}$ 作为输入,策略网络输出相应动作${A_t}$ ;与环境交互得到
${A_t}$ 对应的奖励${R_t}$ ,并得到下一时刻的状态${S_{t + 1}}$ ;将
${S_t}$ 、${A_t}$ 、${R_t}$ 和${S_{t + 1}}$ 放入回放缓冲池$\mathcal{M}$ 中;从
$\mathcal{M}$ 中随机抽取一批数据$\{ {S_t},{A_t},{R_t},{S_{t + 1}}\} $ ;$n = n + 1$ ;得到两个评价网络输出
${Q_{{\theta _1}}}$ 、${Q_{{\theta _2}}}$ ;根据式(12)计算得到
${Q_{{\text{target}}}}$ ;根据式(13)、式(14)与式(15)更新评价网络;
if
$n$ %${T_{{\rm{step}}}}$ == 0 then根据式(16)更新策略网络;
根据式(17)、(18)更新
${\varphi ^\prime }$ 、$\theta _1^\prime $ 与$\theta _2^\prime $ ;end if
更新状态,将神经网络的输入设置为
${S_{t + 1}}$ ;end
end
TD3算法的网络参数设置见表2。
参数 描述 值 $\gamma $ 对未来奖励的折扣率 0.99 $\alpha $ 更新训练评价网络的学习率 0.001 $\; \beta$ 更新训练策略网络的学习率 0.0001 $\tau $ 更新目标策略网络与目标价值网络的学习率 0.001 $\lambda $ 训练评价网络和训练策略网络的衰减率 0.00001 ${\rm{batch}}\_{\rm{size}}$ 批处理数据的大小 16 $\mathcal{M}$ 经验回放缓冲池的大小 100000 ${T_{{\rm{step}}} }$ 策略网络延迟更新的步数 4 $E$ 回合数 1000 $T$ 每回合的步数 10000
Continuous vs Discrete: Phase Performance Comparison of RIS-Assisted Millimeter Wave Communication Based on Deep Reinforcement Learning
doi: 10.12178/1001-0548.2022285
- Received Date: 2022-08-22
- Rev Recd Date: 2023-05-29
- Available Online: 2024-01-27
- Publish Date: 2024-01-30
-
Key words:
- deep Q network(DQN) /
- deep reinforcement learning /
- delayed deep deterministic policy gradient /
- millimeter wave /
- reconfigurable intelligence surface
Abstract: In this paper, in the distributed Reconfigurable Intelligence Surface (RIS) assisted multi-user millimeter wave (mmWave) system, the deep reinforcement learning (DRL) theory is used to learn and adjust transmit beamforming matrix at the base station and phase shift matrix at the RIS, and jointly optimize the transmit beamforming matrix and phase shift matrix to maximize the weighted sum-rate. Specifically, in the discrete action space, we first design the power codebook and the phase codebook, and propose the Deep Q Network(DQN) algorithm to optimize the beamforming matrix and phase shift matrix; then, in the continuous action space, the Twin Delayed Deep Deterministic (TD3) policy gradient algorithm is used to optimize the beamforming matrix and phase shift matrix. The weighted sum-rates of the system in discrete action space and continuous action space with different number of codebook bits are compare through simulation. In addition, compared with the traditional convex optimization algorithm and the zero-forcing precoding with a random PBF algorithm, the sum-rate performance of DRL algorithm is significantly improved, and the sum-rate of the continuous TD3 algorithm exceeds the convex optimization algorithm by 23.89%, and the performance of the discrete DQN algorithm exceeds the traditional convex optimization algorithm when the number of codebook bits is 4.
Citation: | HU Langtao, YANG Rui, LIU Quanjin, WU Jianlan, JI Wen, WU Lei. Continuous vs Discrete: Phase Performance Comparison of RIS-Assisted Millimeter Wave Communication Based on Deep Reinforcement Learning[J]. Journal of University of Electronic Science and Technology of China, 2024, 53(1): 50-59. doi: 10.12178/1001-0548.2022285 |