尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

3.3 离策略演员–评论家(Off-policy Actor–Critic)

3.3 离策略演员–评论家(Off-policy Actor–Critic)
📅 发布时间:2026/6/18 18:18:27

离策略演员–评论家(Off-policy Actor–Critic)


On-policy 与 Off-policy

演员–评论家算法通常是on-policy(同策略)的:用于探索环境的动作必须由当前策略生成,否则评论者(Critic)提供的反馈(优势项)会在策略梯度中引入巨大的偏差。
这源自策略梯度定理:

\[\nabla_\theta J(\theta) = \mathbb{E}_{s \sim \rho^\pi, a \sim \pi_\theta}[\nabla_\theta \log \pi_\theta(s,a) Q^{\pi_\theta}(s,a)] \]

其中 \(\rho^\pi\) 表示按照策略 \(\pi_\theta\) 可访问的状态分布。若采样的状态 \(s\) 并非来自此分布,则梯度估计将出现高偏差,导致策略次优。

On-policy 缺点:
样本复杂度高、探索效率低。如果智能体初始化于低回报区域,则策略更新极慢,可能长时间无法“命中”高回报区域。

onpolicyexploration

在高维状态或动作空间中,这一问题更严重,尤其是稀疏奖励情境。
此时可借助 off-policy 方法:使用行为策略(behavior policy) \(b(s,a)\) 探索环境,同时学习目标策略(target policy) \(\pi(s,a)\)。
若行为策略足够好,off-policy 学习能显著减少探索所需样本。


Off-policy 学习原理

Q-learning 是典型的 off-policy 算法,因为它在更新 Q 值时使用的是贪婪动作而非实际执行动作:

\[\delta = r + \gamma \max_{a'} Q(s',a') - Q(s,a) \]

唯一要求是:目标策略能被行为策略“覆盖”:

\[\pi(s,a) > 0 \Rightarrow b(s,a) > 0 \]

即行为策略必须有非零概率执行目标策略可能选择的动作。

行为策略常见构造方式:

  1. 专家示范或启发式策略(模仿学习、机器人控制等)。
  2. 由目标策略派生:例如目标为贪婪策略,而行为策略采用 \(\epsilon\)-greedy 或 softmax 版本以保证探索。

后者确保了探索与收敛的平衡,因此 DQN 就是此种结构。
此外,off-policy 允许使用 经验回放(replay buffer),这是如 DQN 等算法的关键特性。


重要性采样(Importance Sampling)

off-policy 方法利用行为策略采样轨迹,但要估计目标策略的期望回报:

\[J(\theta) = \mathbb{E}_{\tau \sim \rho_\theta}[R(\tau)] \]

若用行为策略采样,得到:

\[\hat{J}(\theta) = \mathbb{E}_{\tau \sim \rho_b}[R(\tau)] \]

两者分布不同。
重要性采样通过加权校正实现无偏估计:

\[J(\theta) = \mathbb{E}_{\tau \sim \rho_b}\!\left[\frac{\rho_\theta(\tau)}{\rho_b(\tau)} R(\tau)\right] \]

其中比值:

\[\frac{\rho_\theta(\tau)}{\rho_b(\tau)} = \prod_{t=0}^T \frac{\pi_\theta(s_t,a_t)}{b(s_t,a_t)} \]

称为重要性权重(importance weight)。


离策略蒙特卡罗策略搜索算法

  1. 使用行为策略 \(b\) 采样 \(m\) 条轨迹 \(\tau_i\);
  2. 对每条轨迹存储奖励 \(r_{t+1}\)、行为概率 \(b(s_t,a_t)\) 与目标策略概率 \(\pi_\theta(s_t,a_t)\);
  3. 估计目标期望:

    \[\hat{J}(\theta) = \frac{1}{m} \sum_{i=1}^m \!\left(\prod_{t=0}^T \frac{\pi_\theta(s_t,a_t)}{b(s_t,a_t)}\!\right)\!\left(\sum_{t=0}^T \gamma^t r_{t+1}\!\right) \]

  4. 更新 \(\theta\) 以最大化 \(\hat{J}(\theta)\)。

同理,策略梯度形式为:

\[\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \rho_b}\!\left[\nabla_\theta \log \rho_\theta(\tau) \frac{\rho_\theta(\tau)}{\rho_b(\tau)} R(\tau)\right] \]

基于因果性原则(causality),可化为逐步估计形式:

\[\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \rho_b}\!\left[\sum_t \nabla_\theta \log \pi_\theta(s_t,a_t)\!\left(\prod_{t'=0}^t \frac{\pi_\theta(s_{t'},a_{t'})}{b(s_{t'},a_{t'})}\!\right)\!\left(\sum_{t'=t}^T \gamma^{t'-t} r_{t'+1}\!\right)\!\right] \]


线性离策略演员–评论家(Off-PAC)

@Degris2012 提出首个离策略 Actor–Critic 方法。
其目标函数为:

\[J(\theta) = \mathbb{E}_{s \sim \rho_b}[V^{\pi_\theta}(s)] = \mathbb{E}_{s \sim \rho_b}\!\left[\sum_a \pi_\theta(s,a) Q^{\pi_\theta}(s,a)\right] \]

策略梯度:

\[\nabla_\theta J(\theta) = \mathbb{E}_{s,a \sim \rho_b}\!\left[\frac{\pi_\theta(s,a)}{b(s,a)} Q_\varphi(s,a) \nabla_\theta \log \pi_\theta(s,a)\right] \]

Off-PAC 能基于单步转移 \((s,a)\) 在线更新,结合重要性采样权重。
该算法支持资格迹(eligibility traces),但由于方差高,仅适用于线性函数逼近器。


Retrace 算法

Retrace [@Munos2016] 同时满足:

  1. 离策略学习(可复用旧样本,支持经验回放);
  2. 多步回报(multi-step returns)(平衡偏差与方差)。

在通用形式下,更新公式为:

\[\Delta Q^\pi(s_t,a_t) = \alpha \sum_{t'=t}^T \gamma^{t'-t}\!\!\left(\prod_{s=t+1}^{t'} c_s\!\right)\!\delta_{t'} \]

不同的 \(c_s\) 取值对应不同算法:

\(c_s\) 形式 算法 特点
\(\lambda\) \(Q(\lambda)\) 对策略差异敏感,不安全
\(\frac{\pi(s_s,a_s)}{b(s_s,a_s)}\) 重要性采样 无偏但高方差
\(\pi(s_s,a_s)\) Tree-backup 稳定但收敛慢

Retrace 的改进:

\[c_s = \lambda \min(1, \frac{\pi(s_s,a_s)}{b(s_s,a_s)}) \]

该方法结合重要性采样与资格迹,具有低方差、高稳定性和高效率。
Retrace 常用于 ACER 与 Reactor 等算法中。


自模仿学习(Self-Imitation Learning, SIL)

@Oh2018 提出在 A2C 等 on-policy 算法上加入回放缓冲区,强化对历史高回报样本的重用。

仅当实际回报高于当前状态值时,样本才用于更新:

\[\mathcal{L}^\text{SIL}_\text{actor} = \mathbb{E}[\log \pi_\theta(s,a)(R(s,a) - V_\varphi(s))^+] \]

\[\mathcal{L}^\text{SIL}_\text{critic} = \mathbb{E}[((R(s,a) - V_\varphi(s))^+)^2] \]

其中 \((x)^+ = \max(0,x)\)。
SIL 实现了 on-policy 与 off-policy 的混合:既保持探索,又能高效利用已有经验。

实验表明,A2C+SIL 在 Atari 与 Mujoco 环境中均优于 A3C、PPO 等算法,尤其在稀疏奖励任务中表现突出。


Reactor 算法

Reactor(Retrace Actor) [@Gruslys2017] 结合 Retrace 与分布式架构,是 ACER 的分布式扩展。

主要特点:

  • 使用 重要性采样的策略梯度;
  • Retrace 校正的多步回报;
  • 分布式 Q 值学习(distributional critic);
  • 序列级优先回放(prioritized sequence replay)。

Actor–Critic 梯度:

\[\nabla_\theta J(\theta) = \frac{\pi_\theta(s,\hat{a})}{b(s,\hat{a})}(R - Q_\varphi(s,\hat{a}))\nabla_\theta \log \pi_\theta(s,\hat{a}) + \sum_a Q_\varphi(s,a)\nabla_\theta \pi_\theta(s,a) \]

为控制方差,引入截断参数:

\[\beta = \min(c, \frac{1}{b(s,\hat{a})}) \]

得到 \(\beta\)-LOO(Leave-One-Out)梯度。
Critic 通过 Retrace(\(\lambda\)) 更新,结合分布式 Bellman 投影。
此外,Reactor 使用 LSTM 提供隐状态记忆,并行多个 actor-learner 在 CPU 上训练,仅需一天即可超越 DQN、A3C 与 ACER。


相关新闻

  • 3.4 深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)
  • MINIX 3 值得仔细研究 from Tanenbaum A., Bos H. Modern Operating Systems 5ed 2023
  • 实验1 现代c++初体验

最新新闻

  • 济南正规奢侈品包包回收门店地址,添价收名牌包回收实测评级 - 薛定谔的梨花猫
  • 西安AI智能体开发公司:企业级定制智能体的技术实践与多端部署
  • AI 回答太长想保存成 PDF 或长图,怎样保留标题、表格和代码块? - 【DS随心转】
  • 抖音去水印免费工具推荐:免费软件小程序都能用 - 工具软件使用方法推荐
  • 02梦断代码阅读笔记之一
  • 2026深圳黄金回收门店实力大排名,透明回收、报价公道商家一览 - 奢侈品回收测评

日新闻

  • 5分钟掌握Python进化算法:Geatpy高性能优化工具完全指南
  • Microchip 24AA044 EEPROM选型与应用全指南:从参数解析到实战编程
  • 华为的鸿蒙到底有多牛?为什么称作遥遥领先?

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号