尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

4.2 基于模型增强的无模型强化学习(Model-based Augmented Model-free RL)

4.2 基于模型增强的无模型强化学习(Model-based Augmented Model-free RL)
📅 发布时间:2026/6/18 22:41:36

基于模型增强的无模型强化学习(Model-based Augmented Model-free RL)

(Dyna-Q, I2A)


Dyna-Q 算法

在学习到环境模型之后,可以利用该模型增强无模型算法。
无模型算法(如 Q-learning)可从以下两种类型的转移样本中学习:

  1. 真实经验(real experience):来自与环境的实际交互;
  2. 模拟经验(simulated experience):由模型生成的虚拟转移。

dynaq

只要模拟转移足够逼真,Q-learning 就能在使用更少真实样本的情况下收敛,从而降低样本复杂度。

Dyna-Q 算法 [@Sutton1990] 是对 Q-learning 的扩展,它集成了环境模型 \(M(s,a)=(s',r')\),在真实环境更新与模型生成更新之间交替进行。


Dyna-Q 算法流程 [@Sutton1990]

  1. 初始化 Q 值表 \(Q(s,a)\) 和模型 \(M(s,a)\)。
  2. 对每个时间步 \(t = 1 \ldots T_\text{total}\):
    1. 使用当前 Q 值选择动作 \(a_t\),在真实环境中执行;
    2. 观察到 \(s_{t+1}\) 和 \(r_{t+1}\);
    3. 更新真实样本对应的 Q 值:

      \[\Delta Q(s_t,a_t) = \alpha (r_{t+1} + \gamma \max_a Q(s_{t+1},a) - Q(s_t,a_t)) \]

    4. 更新模型:

      \[M(s_t,a_t) \leftarrow (s_{t+1},r_{t+1}) \]

    5. 进行 K 次虚拟更新:
      • 从已访问的状态集合中随机采样 \(s_k\);
      • 使用 \(Q\) 选择动作 \(a_k\);
      • 用模型预测 \(s_{k+1}, r_{k+1} = M(s_k,a_k)\);
      • 更新虚拟样本对应的 Q 值:

        \[\Delta Q(s_k,a_k) = \alpha (r_{k+1} + \gamma \max_a Q(s_{k+1},a) - Q(s_k,a_k)) \]


关系与启发

Dyna-Q 是 DQN 和其经验回放机制(Experience Replay)的重要启发来源:

方法 样本来源
DQN 复用真实历史样本(ERM)
Dyna-Q 模型生成的虚拟样本

此外,Dyna-Q 的交替 on-policy / off-policy 更新思想也是 ACER(第 @sec-acer 节)的核心机制。


I2A:Imagination-Augmented Agents

I2A(Imagination-Augmented Agents)[@Weber2017] 是一种 基于模型增强的无模型方法:
它使用模型生成的虚拟轨迹(rollouts)来辅助无模型算法(A3C)的学习。

研究者在经典益智游戏 Sokoban 中展示了该算法的能力。
Sokoban 需要移动箱子到指定位置,但动作不可逆,且奖励稀疏,是对探索能力极具挑战的任务。

i2a-sokoban


1. 环境模型(Environment Model)

i2a-envmodel

环境模型学习从最近 4 帧观测和当前动作预测下一帧与奖励:

\[(o_{t-3}, o_{t-2}, o_{t-1}, o_t, a_t) \rightarrow (o_{t+1}, r_{t+1}) \]

由于 Sokoban 是部分可观测环境(POMDP),使用观测 \(o_t\) 替代状态 \(s_t\)。

该模型结构类似卷积自编码器(CNN autoencoder),输入包含图像和动作,输出为下一帧预测。
实际属于分割网络(如 SegNet [@Badrinarayanan2016] 或 U-Net [@Ronneberger2015])家族。
模型可先用随机策略预训练,再在训练过程中微调。


2. 想象核心(Imagination Core)

i2a-architecture1

“想象核心”由两部分组成:

  • 环境模型 \(M(s,a)\);
  • 虚拟策略(rollout policy) \(\hat{\pi}\)。

\(\hat{\pi}\) 用于快速生成虚拟轨迹,可为:

  • 预训练的 A3C 策略;
  • 简化的近似策略;
  • 甚至随机策略。

在 I2A 中,\(\hat{\pi}\) 通过策略蒸馏(policy distillation)从主策略 \(\pi\) 中学习得到。


策略蒸馏(Policy Distillation)[@Rusu2016]

小型网络 \(\hat{\pi}\) 通过监督学习模仿教师策略 \(\pi\) 的输出:

\[\mathcal{L}(\hat{\theta}) = \mathbb{E}_{s,a}[D_\text{KL}(\hat{\pi}(s,a) || \pi(s,a))] \]

policydistillation

优点:

  • 蒸馏后的 \(\hat{\pi}\) 参数更少,计算更快;
  • 监督学习比强化学习更易收敛;
  • 通常可在保持性能的同时减少 90% 参数量。

此思想还可扩展为 Distral 框架 [@Teh2017],即多个任务间共享“中心策略”以提升泛化:

distral


3. 想象展开模块(Imagination Rollout Module)

i2a-architecture2

该模块利用想象核心迭代预测未来 \(\tau\) 步:

\[(o_{t-3}, o_{t-2}, o_{t-1}, o_t) \rightarrow \hat{o}_{t+1} \rightarrow \hat{o}_{t+2} \rightarrow \cdots \rightarrow \hat{o}_{t+\tau} \]

生成的图像序列与奖励被送入一个 卷积 LSTM,从末帧反向传播至首帧,提取整个虚拟轨迹的嵌入向量 \(e_i\)。

由于 \(\hat{\pi}\) 为随机策略,不同 rollouts 会产生不同嵌入,体现了想象中的多样性。


4. 无模型路径(Model-free Path)

i2a-architecture3

对当前观测 \(o_t\)(及前三帧),为每个可能动作生成一个 rollout(Sokoban 中共 5 个动作):

  • 如果执行动作 1,会怎样?
  • 如果执行动作 2,会怎样?
  • ……

这些 rollouts 的向量嵌入与无模型 CNN 提取的特征拼接,作为联合输入。


5. 完整结构

最终得到一个端到端可微分的整体网络:

i2a-architecture

输入:观测 \(o_t\)
输出:策略 \(\pi_\theta\) 与价值函数 \(V_\varphi\)
训练方式:使用 n-step A3C 优化目标。

\[\nabla_\theta \mathcal{J}(\theta) = \mathbb{E}_{s_t,a_t}[\nabla_\theta \log \pi_\theta(s_t,a_t)(\sum_{k=0}^{n-1}\gamma^k r_{t+k+1} + \gamma^n V_\varphi(s_{t+n}) - V_\varphi(s_t))] \]

\[\mathcal{L}(\varphi) = \mathbb{E}_{s_t,a_t}[(\sum_{k=0}^{n-1}\gamma^k r_{t+k+1} + \gamma^n V_\varphi(s_{t+n}) - V_\varphi(s_t))^2] \]

模型端到端可微分,因此可通过反向传播训练。


6. 实验结果

I2A 在 Sokoban 上显著优于 A3C:
Rollout 越深(即想象步数越多),性能越好。

i2a-results

即使模型存在误差,A3C 的无模型分支仍能进行补偿,保持鲁棒性:

i2a-results2


总结:
I2A 将基于模型的“规划”引入基于值的深度强化学习中,
通过在“想象环境”中进行多步预测,显著提升了策略的探索性与样本利用率。
其思想为后续如 Dreamer、PlaNet、MBPO 等算法奠定了基础。

相关新闻

  • 乐理 -06 和弦, 和声
  • 3.7 带经验回放的演员–评论家算法(Actor-Critic with Experience Replay, ACER)
  • 3.3 离策略演员–评论家(Off-policy Actor–Critic)

最新新闻

  • 机器学习模型上线后如何应对系统性风险与数据漂移
  • 什么是伯乐电穿孔仪 - 实了个验
  • CTF密码学实战:Python AES加解密核心原理与攻击技巧
  • 2026 南宁钻石回收最新行情,克拉钻裸钻实时报价参考 - 讯息早知道
  • 北京东城区黄金回收指南:收的顶专业机构VS银行VS金店怎么选? - 奢侈品回收测评
  • 2026西安黄金行情解析|高位变现时机与门店测评 - 奢侈品回收测评

日新闻

  • 5分钟掌握Python进化算法:Geatpy高性能优化工具完全指南
  • Microchip 24AA044 EEPROM选型与应用全指南:从参数解析到实战编程
  • 华为的鸿蒙到底有多牛?为什么称作遥遥领先?

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号