当前位置：首页 > news >正文

基于多智能体强化学习的大规模RIS辅助无人机通信波束优化

news 2026/6/10 17:36:01

1. 项目概述与核心挑战在6G通信网络的研究前沿有两个技术方向正受到前所未有的关注一个是能动态调控无线传播环境的可重构智能表面RIS另一个是具备高度部署灵活性的无人机UAV。前者像一面“智能镜子”通过成百上千个低成本的无源反射单元可以精确控制电磁波的反射相位和幅度从而重塑信道后者则像一个“空中基站”能快速飞抵目标区域提供临时的、高质量的通信覆盖。当我们将这两者结合——让无人机在动态空域中飞行同时地面或空中的RIS实时调整反射波束为其服务——就构成了一个极具潜力的“RIS辅助无人机通信”系统。这个系统理论上能解决传统地面基站覆盖盲区、无人机通信能耗高、动态信道难以追踪等一系列难题。然而理想很丰满现实却很骨感。真正要把这套系统做出来并且让它能在复杂的城市峡谷或快速移动的场景下稳定工作我们遇到了几个“硬骨头”“看不见”的信道无人机在飞RIS的反射波束要对准它前提是得知道无人机当前的信道状态信息CSI。但在高速移动下信道瞬息万变我们获取的CSI永远是不完美、有延迟、带噪声的。传统的优化算法比如交替优化、连续凸近似就像高度近视还非要玩飞镖对CSI误差极其敏感一个小的估计偏差就可能导致优化结果完全失效波束指歪通信中断。“算不动”的规模为了获得高增益RIS的规模正朝着128x128甚至更大的均匀平面阵列UPA发展。这意味着有上万个相位单元需要同时优化。传统的单智能体深度强化学习DRL方法比如经典的DQN或DDPG试图用一个“大脑”来控制这上万个单元。其动作空间的大小会随着单元数量呈指数级爆炸导致智能体根本学不会训练不收敛或者收敛到一个非常差的局部解。“等不起”的延迟无人机通信对时延极其敏感。RIS的相位调整必须在信道相干时间内完成通常是毫秒级。复杂的优化算法计算耗时过长等它算完最优解无人机早就飞出去几十米了结果已然过时。我过去在尝试复现一些顶会论文的RIS优化方案时就深刻体会过这些痛点。模型一上规模仿真跑几天都看不到收敛迹象稍微增加点信道噪声性能就断崖式下跌。这让我意识到必须换一种思路。多智能体深度强化学习MARL进入了我的视野。它的核心思想是“分而治之”不让一个智能体扛下所有而是把控制一个大UPA RIS的任务分解给两个智能体——一个负责控制所有行的相位梯度一个负责控制所有列的相位梯度。它们各自观察环境做出自己维度上的决策然后协同产生最终的全局反射波束。这样每个智能体的动作空间被极大压缩学习效率成倍提升同时也更贴合RIS硬件按行/列驱动电路的实际控制方式。本文将详细拆解我们是如何基于多智能体深度Q网络MADQN构建一个面向大规模UPA-RIS辅助无人机上行通信的智能控制器。我会从系统建模开始讲清楚为什么要把问题转化成多智能体马尔可夫决策过程MMDP然后深入双智能体控制器的设计细节包括我们如何设计状态空间、动作空间和奖励函数来同时权衡速率、能耗和时延。最后我会分享大量的仿真实验数据、调参心得以及在实际编码中遇到的“坑”和解决方案。无论你是通信领域的研究者还是对强化学习应用感兴趣的工程师希望这篇近万字的“踩坑实录”能给你带来切实的启发。2. 系统模型与问题形式化从物理世界到数学问题要把一个通信系统用算法控制好第一步是给它建立一个既准确又便于处理的数学模型。我们的目标场景是一个RIS辅助的多无人机上行通信系统。简单来说就是多架无人机同时向一个地面基站BS发送数据但由于障碍物或距离原因直接链路质量很差于是我们在中间部署了一块大型的RIS通过智能反射来增强信号。2.1 物理场景与信道建模想象这样一个场景一块巨大的RIS面板比如128行 x 128列安装在一栋高楼楼顶的侧面Y-Z平面。不远处是配备多天线比如8根天线的基站。空中有10架单天线无人机它们从区域A例如坐标[-100, 100, 20]米沿着直线飞往区域B[100, -100, 20]米。无人机到基站的直接链路因为遮挡或路径损耗太弱主要依靠RIS反射路径。信道模型是核心。信号从无人机U发出经过RISR反射最终到达基站B。这个复合信道可以表示为h_U h_UB H_RB * Θ * h_UR这里h_UB是无人机到基站的直接信道很弱h_UR是无人机到RIS的信道H_RB是RIS到基站的信道。Θ是一个对角矩阵对角线上的每个元素就代表了RIS上每个反射单元的“相位旋转”作用这正是我们要优化的东西。它的模值通常为1无源反射只调相不放大相位值在一定范围内可调。为了更贴近现实我们采用莱斯衰落信道模型。这意味着信道由两部分组成一个确定的视距LoS分量和一个随机的非视距NLoS多径分量。莱斯因子κ决定了这两部分的功率比。κ越大说明视距主导信道越稳定κ越小说明多径散射严重信道越随机、越难预测。这个κ值是我们后面测试算法鲁棒性的关键参数之一。对于RIS这种UPA其阵列响应向量计算比均匀线性阵列ULA复杂需要考虑水平和垂直两个方向的到达角。这部分公式原文中的公式9虽然看起来复杂但其物理意义很直观它描述了电磁波以不同角度打到RIS这个二维平面阵列上时每个单元接收到的信号由于波程差而产生的相位差。优化Θ本质上就是在补偿这些相位差让所有反射信号在基站处同相叠加实现波束成形增益。2.2 优化目标在矛盾中寻找平衡我们的终极目标是让系统“好用”这不仅仅是信号强就行。具体到数学上我们构建了一个多目标优化问题原文中的问题P0要同时最大化三样东西系统和速率Sum Rate所有无人机向基站发送数据的总速率。这是通信系统最根本的性能指标。能量效率Energy Efficiency单位焦耳能量能传输多少比特数据bit/Joule。无人机电池有限必须精打细算。控制时延Control Latency从感知信道变化到完成RIS相位重配所花的时间。必须小于信道的相干时间否则调整就失去了意义。但同时我们受到重重约束RIS相位量化约束真实的RIS硬件其相位调节器不是无限精度的。通常只能用有限的几个比特比如2-bit或3-bit来控制相位也就是说相位只能从几个离散值如0°, 90°, 180°, 270°中选择。这是硬件带来的根本限制。无人机能量约束每架无人机都有初始电量发送功率不能超过最大值且整个任务期间不能把电用完。服务质量QoS约束每架无人机的最低数据速率必须得到保障且满足的概率要足够高例如95%。直接优化上万个离散的相位变量问题P0是一个组合爆炸的NP难问题。计算复杂度高到无法实时求解。这里是我们第一个关键的思路转换我们不再直接优化每个单元的相位φ_{p,q}而是引入两个控制变量行波数k_r和列波数k_c。整个RIS的相位分布可以通过一个结构化的函数生成φ_{p,q} Q_b(k_r * x_p k_c * y_q)。其中Q_b(·)表示量化操作x_p和y_q是单元的位置。为什么这么做这相当于把优化空间从一个超高维的离散空间维度为NN是单元总数压缩到了一个2维的连续空间k_r,k_c。虽然损失了一些自由度无法实现任意形状的波束但对于形成指向性波束这种主要需求来说已经足够。更重要的是计算复杂度从O(2^{bN})量级降到了O(1)使得实时优化成为可能。这种“降维打击”是处理大规模RIS控制问题的关键。于是原始问题P0被转化为了一个更易处理的问题P1。我们的任务变成了在每一个时刻根据当前不完美的CSI为行波数k_r和列波数k_c找到一组最优的离散调整量从而最大化那个权衡了速率、能效和时延的复合目标函数。3. 多智能体强化学习框架设计现在我们有了一个明确的数学问题P1。接下来我们需要一个强大的“大脑”来在线求解它。传统的基于模型的方法需要精确的数学模型和复杂的迭代计算在动态环境下显得笨重且脆弱。我们选择数据驱动的深度强化学习DRL这条路。但如前所述单智能体DRL面对大规模RIS时束手无策。因此我们引入了多智能体深度Q网络MADQN。3.1 为何选择多智能体与DQN为什么是多智能体核心思想是分解与协同。控制一个128x128的RIS相当于要协调16384个单元。我们将其分解为两个智能体的任务行智能体Row Agent负责决定所有行单元共享的相位变化趋势即k_r的增减。列智能体Column Agent负责决定所有列单元共享的相位变化趋势即k_c的增减。每个智能体只需要在一个很小的、离散的动作集中做选择例如k_r增加一点、减少一点或保持不变。两个智能体的动作组合起来通过之前提到的结构化函数就能生成整个RIS的相位配置。这巧妙地将动作空间从|A_row| * |A_column|的乘积规模降低到了|A_row| |A_column|的求和规模彻底解决了维数灾难。为什么是DQN而不是DDPG、TD3动作空间本质RIS的相位控制在硬件层面本身就是离散的几个固定的相位值。DQN天然适合处理离散动作空间问题。稳定性在早期对比实验中我们发现基于策略梯度的连续控制算法如DDPG、TD3在本题环境下训练非常不稳定容易发散。而DQN基于值函数通过Q-Learning更新通常具有更好的训练稳定性。收敛速度对于这类相对“结构化”的决策问题选择增/减/保持离散的Q-Learning方法往往能更快地找到较好的策略。与量化硬件匹配DQN输出的离散动作直接对应硬件驱动器的控制指令无需额外的投影或量化步骤实现更简单。3.2 核心架构双智能体控制器详解我们的MADQN控制器架构如图所示对应原文图3。整个系统是一个闭环环境无线信道无人机在移动信道在变化。基站接收到带噪声的导频信号。状态感知与特征提取这是第一个实操难点。我们不能直接把嘈杂的CSI原始数据扔给智能体。我们设计了一个端到端信道推断E2E Channel Inference模块。它由一个神经网络信道前端NCF和一个循环信念编码器Recurrent Belief Encoder组成。NCF像一个“降噪滤波器”输入是噪声观测Y_t输出是去噪后的信道估计Ĥ_t和一个不确定性估计σ_t^2。这个不确定性很重要它告诉智能体“当前的信道信息有多不可靠”。信念编码器它是一个RNN如LSTM或GRU。它不只看当前时刻的Ĥ_t还会记住过去一段时间的历史观测和RIS配置Θ_{t-1}。最终它输出一个紧凑的信念向量Belief Vectorb_t。这个b_t才是智能体看到的“状态”s_t的核心部分。它融合了历史信息是对时变信道动态的一个稳健的、摘要式的表达。智能体决策行智能体和列智能体各自接收这个共同的信念状态s_t {b_t, Θ_{t-1}}。它们各自拥有一个独立的DQN网络结构见原文图4。每个DQN网络由几层CNN用于提取信道矩阵的空间特征和全连接层组成最终输出对应其离散动作的Q值。动作执行与奖励计算两个智能体根据ε-greedy策略训练初期多探索后期多利用选择动作a_r,t和a_c,t。动作组合后更新k_r和k_c进而通过量化函数Q_b(·)生成新的RIS相位矩阵Θ_t。系统执行此配置计算得到新的和速率C_t、总功耗P_tot_t和时延L_t。奖励反馈奖励函数的设计是灵魂。我们设计了如下奖励r_t w1 * \tilde{C}_t w2 * \tilde{EE}_t - w3 * [L_t - L_max]_其中\tilde{C}_t和\tilde{EE}_t是经过在线归一化减去滑动最小值除以滑动范围后的和速率与能量效率。[L_t - L_max]_是时延违例惩罚时延超过预算L_max的部分。w1, w2, w3是权重满足w1 w2 - w3 1。这个奖励函数完美地将我们之前的多目标优化问题P1映射为了强化学习智能体能够理解的“收益”。经验回放与学习智能体将每一步的经历(s_t, a_t, r_t, s_{t1})存入经验回放池。训练时随机采样一批数据通过最小化时序差分误差TD-error来更新DQN网络的参数。我们采用了Double DQN和目标网络技术来稳定训练。3.3 训练流程与关键技巧整个训练流程封装在算法1中。以下是我在实现和调参过程中总结的几个关键点状态归一化信道矩阵H的数值可能非常大与距离、增益有关直接输入网络会导致梯度爆炸或消失。必须对状态向量特别是信念向量b_t进行归一化。我们采用Batch Normalization层集成在信念编码器中效果显著。奖励塑形Reward Shaping单纯使用最终奖励r_t智能体在初期可能很长时间都得不到正奖励学习缓慢。我们加入了稀疏奖励惩罚原文公式23如果当前和速率低于一个阈值C_th就给予一个小的负惩罚-Δ_pen。这就像给学走路的小孩一点轻微的提示能有效引导探索方向加速初期学习。探索策略ε-greedy中的ε需要退火Annealing。我们通常从1.0完全随机探索开始随着训练步数增加线性或指数衰减到一个很小的值如0.01或0.05。确保智能体在后期能稳定利用学到的策略。学习率与优化器使用Adam优化器初始学习率设置在3e-4到1e-3之间。学习率同样需要衰减我们采用余弦退火或按步数衰减。目标网络更新采用“软更新”方式即每次主网络更新后以一个小系数τ如0.005将主网络参数混合到标网络θ_target - τ * θ (1-τ) * θ_target。这比每隔固定步数完全复制参数硬更新能带来更稳定的训练。4. 仿真实验与性能深度剖析理论设计得再漂亮最终还是要靠实验说话。我们搭建了一个完整的仿真平台对比了包括我们提出的MA-DQN在内的多种基线算法单智能体DQN、DDPG、TD3、SAC、多智能体DDPGMADDPG以及作为理论上界的传统交替优化算法AO假设拥有完美CSI。4.1 收敛性能MA-DQN何以胜出我们评估了六大核心指标总回报、平均和速率、能量效率、总功耗、控制时延和信道估计的归一化均方误差NMSE。总回报图5aMA-DQN的收敛曲线最平滑、最快且最终回报值最高。这说明我们的双智能体架构在探索-利用的平衡上做得最好能稳定地学到高性能策略。单智能体DQN次之但波动稍大。连续动作算法DDPG TD3 SAC收敛速度慢且不稳定MADDPG则因为多智能体环境下的非平稳性问题收敛最慢。平均和速率图5bMA-DQN的性能最接近拥有完美CSI的AO算法理论上界显著优于其他DRL方法。这直接证明了行-列协同控制的有效性。智能体学会了如何协调两个维度的相位变化以形成指向性最强的反射波束。能量效率与功耗图5c, 5dMA-DQN在获得高数据速率的同时保持了最低的功耗和最高的能效。这是因为我们的奖励函数中包含了能效项w2 * \tilde{EE}_t智能体在学习最大化速率的同时也学会了“省电”避免不必要的、大幅度的相位切换这会产生切换功耗P_C。控制时延图5fMA-DQN的决策时延最低。这是因为其网络结构相对简单离散动作输出前向推理速度极快。而基于策略梯度的连续动作算法需要进行额外的投影或采样操作计算更慢。AO算法虽然性能好但计算复杂度极高时延远超实时要求不具备实际部署价值。对CSI误差的鲁棒性图5eMA-DQN和DQN对CSI估计误差高NMSE的鲁棒性最强。这是因为它们基于值函数学习对输入的噪声相对不敏感。而DDPG、MADDPG等依赖策略梯度在噪声较大的观测下梯度估计不准容易导致策略崩溃。实操心得奖励函数权重的调参。w1, w2, w3的设定不是拍脑袋决定的。我们通过一系列消融实验来确定。例如初期可以设w11, w2w30让智能体先学会最大化速率。等速率学习曲线稳定后再逐渐引入w2如设为0.3观察能效是否提升而速率不降太多。最后引入w3如设为0.1并观察时延违例概率。这个过程需要耐心并且一定要在多个随机种子下重复实验以排除偶然性。4.2 鲁棒性测试在变化的环境中是否依然可靠一个好的算法不能只在“温室”里表现好。我们改变了四个关键环境参数观察MA-DQN的适应能力。莱斯因子κ图6κ从0纯瑞利衰落无LoS到10强LoS变化。当κ很小时信道极其随机训练曲线波动很大但MA-DQN最终仍能收敛到一个不错的水平。随着κ增大信道更稳定收敛速度加快曲线更平滑。这说明我们的算法能从高度随机的环境中学习并能充分利用稳定的LoS路径获得更高性能。信噪比SNR图7在测试的SNR范围内0dB到20dBMA-DQN的学习曲线和最终回报高度相似。这表明算法对SNR不敏感其性能主要依赖于智能体对信道“结构”的学习而非绝对的信噪比水平。这是一个非常理想的特性意味着算法在信号质量变化的实际场景中会很稳定。无人机数量N_U图8从5架增加到20架。无人机越多系统越复杂多用户干扰越强。可以看到随着N_U增加初期训练波动加大但最终都能收敛且总回报随着用户数增加而提升因为总吞吐量潜力增加。这说明算法能适应不同的网络负载。RIS尺寸图9从16x16测试到64x64。RIS越大可调控的自由度越多能形成的波束越尖锐增益越高。实验结果清晰显示RIS尺寸越大最终收敛的回报值越高。更重要的是MA-DQN在不同尺寸下的收敛行为相似说明其具有良好的可扩展性能够驾驭更大规模的RIS阵列。5. 实现细节、避坑指南与未来展望5.1 代码实现关键点与常见陷阱在复现这个框架时以下几个细节至关重要也是容易出错的地方信道模拟的保真度莱斯信道的LoS分量计算必须准确特别是RIS的UPA阵列响应向量公式9。一个常见的错误是忽略了方位角和俯仰角的定义或者阵元间距与波长的关系没算对导致模拟的波束方向完全错误。建议先用一个简单的波束成形验证脚本检查RIS生成的波束图是否指向预期的方向。经验回放池的管理池子大小如10000要合适。太小会导致样本相关性太强学习不稳定太大则占用内存且旧经验可能过时。我们采用了优先级经验回放Prioritized Experience Replay根据TD-error的大小给样本赋予不同采样概率能显著加快学习速度尤其是对于那些“意外”的好经验或坏经验。神经网络结构的选择CNN的层数、卷积核大小、全连接层的宽度都需要根据输入状态b_t的维度仔细设计。过深的网络容易过拟合且推理时延增加过浅的网络则表达能力不足。我们从一个小网络开始逐渐增加复杂度直到性能不再显著提升为止。Dropout层在训练后期有助于防止过拟合。离散动作集的设计行/列波数增量Δκ的集合A_i公式21是关键。增量步长2/N_i需要根据RIS的尺寸和期望的波束扫描精度来设定。步长太大控制粗糙步长太小学习缓慢。我们通过网格搜索来确定最优的离散动作集。训练不收敛的调试如果奖励曲线一直震荡或下降请按以下顺序检查奖励尺度确保奖励值在一个合理的范围内如[-1, 1]或[-10, 10]。过大或过小会导致梯度爆炸或消失。梯度裁剪在反向传播时对梯度进行裁剪如设定最大范数为1.0这是稳定DQN训练的常用技巧。探索率ε检查ε的退火曲线是否合理。也许初期探索不够智能体困在局部最优或者后期探索太多策略无法稳定。目标网络更新频率尝试调整软更新系数τ或硬更新的周期N_T。5.2 局限性与未来工作尽管我们的MA-DQN框架展现了优异的性能但距离真正的工程落地还有距离主要体现在硬件非理想特性我们的模型假设RIS单元是理想的、独立的。现实中存在单元间耦合、相位依赖幅度、响应非线性、量化误差、切换延时等非理想因素。未来的工作需要将这些硬件损伤模型纳入到状态观察和奖励函数中。计算开销虽然MADQN相比单智能体大大降低了动作空间但训练阶段仍然需要大量的环境交互数万至数十万步。如何设计更高效的网络架构、利用迁移学习、或采用离线强化学习来减少在线训练成本是一个重要方向。从远场到近场当前模型基于远场假设平面波。当RIS尺寸非常大或通信距离非常近时需要采用更精确的近场球面波模型。这会使信道模型和波束成形设计变得异常复杂也是6G超大规模天线阵列的研究热点。多RIS协同单个RIS的覆范围有限。未来网络可能是由多个分布式RIS组成的。如何让多个RIS智能体每个RIS可能又包含行、列智能体之间进行协同形成一个“智能反射面网络”是一个更具挑战性的多智能体协作问题。我个人在实际编码和调试中最深的体会是在通信与AI的交叉领域对物理模型的深刻理解是算法成功的基石。你不能把DRL当作一个黑盒指望它自动解决所有问题。奖励函数的设计必须紧密贴合通信系统的物理含义如速率公式、功耗模型状态表示必须包含能反映信道动态的关键信息如我们设计的信念向量动作空间的设计必须考虑硬件约束如相位量化。只有将领域知识深度嵌入到学习框架中AI才能真正成为解决复杂通信难题的利器。这个MADQN for RIS-UAV的框架正是这一理念的一次成功实践。它为我们打开了一扇门让我们看到如何用分布式、协同的智能去驾驭那些规模庞大、动态复杂的未来无线网络。

查看全文

http://www.rkmt.cn/news/1406175.html