尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

RL’S RAZOR(RL的灾难性遗忘程度更少)

RL’S RAZOR(RL的灾难性遗忘程度更少)
📅 发布时间:2026/6/19 8:10:20

论文链接
机构:Improbable AI Lab+MIT
日期:25.09

insight

这篇论文的核心问题是:基础模型(如大语言模型或机器人策略)在微调以适应新任务时,常常出现灾难性遗忘(catastrophic forgetting),即学习新知识会损害先前掌握的能力。论文通过对比监督微调(SFT)和强化学习(RL)微调方法,发现了一个关键洞察:RL在学习新任务时遗忘更少,而SFT则导致显著遗忘,即使两者在新任务上的性能相似。
论文提出,遗忘程度主要由分布偏移决定,具体是通过新任务上微调策略与基础策略之间的KL散度(Kullback-Leibler divergence)来预测。
该定律还阐明了 SFT 与 RL 之间的令人惊讶的差异。我们的分析揭示了一个简单但强大的
原则,我们称之为 RL 的剃刀:在新任务的众多高奖励解中,同策略方法(如 RL)本质上
倾向于选择 KL 散度上更接近原点策略的解。图 1(左)突出了这一效应:在众多能够达到
高成功率的新策略中,RL 倾向于收敛到 KL 极小值解,而 SFT 可以收敛到距离较远的解。

这种偏差直接源于 RL 的 同策略训练:通过在每一步从模型自身的分布中采样,RL 将学习
限制在基础模型已赋予非可忽略概率的输出范围内。为了提升奖励,这些样本被重新加权并
用于更新模型,从而使策略逐渐转移,而非拉向任意分布。因此,当新任务存在多个表现相
当的解时,RL 倾向于找到靠近原策略的解,而 SFT 则可能收敛到与原策略相距甚远的解,
具体取决于所提供的标签。在简化情景下的理论分析进一步证实了这一观点,表明即使没有
显式的正则化,策略梯度方法仍会收敛至 KL 极小值解。
image

实验1:RL的遗忘学习程度低于SFT

做了若干实验,在训练集相同的情况下,GRPO的遗忘程度总会比sft更低。
image

实验2:较小的KL散度导致遗忘更少

作者发现,KL散度可以很好的和遗忘程度(在先验数据集中性能的下降程度)拟合。

实验3:同策略方法导致更小的KL散度

作者提出,RL和SFT的区别主要在于:

  1. RL是on-policy的,而sft是off-policy的
  2. RL时,存在负例;而SFT时,只有正例
    基于此,作者对比了四种方法:
  • GRPO
  • 1–0 Reinforce:一种同策略算法,不使用错误示例。其中,A(x, y) = 1 表示正确响应,0表示错误响应。这等价于从模型中采样,并仅对正确答案进行 SFT。
  • SFT
  • SimPO:一种离线优化方法,利用负样本。我们通过从外部模型中采样错误响应来创建负样本,并使用 SFT 数据作为正样本。然后最大化正负样本的概率分布之差。
    实验发现:1–0 Reinforce和GRPO的遗忘程度类似;SimPO和SFT的遗忘程度类似,说明主要是同策略方法导致了更小的KL散度,而不是正负例。
    此外,作者还提供了理论证明,证明同策略方法等价于收敛到所有可行解中和基础模型KL散度最小的那个。

问题:作者没有对比RFT方法,如果使用RFT的方法,遗忘程度同样很低。

相关新闻

  • 2025年迈腾更换轮胎推荐:权威榜单与专业指南
  • 寻找海外名义雇主EOR公司?2025年聚焦全球雇佣解决方案与主流服务商优势
  • 香港名义雇主EOR公司推荐2025版:Safeguard Global实现快速合规入职

最新新闻

  • DeepSeek-V4长任务能力深度解析:跨页指代、分层KV Cache与DSPE编码
  • 深孔钻头选购,如何选择永昌工具这样的好品牌 - 工业品网
  • 2026年免费快速:PPT转PDF并压缩全攻略(小程序+公众号) - 时时资讯
  • LLM与RNN混合架构在代码理解中的应用与优化
  • 河北福亚斯保温建材口碑怎么样?深度评测与推荐 - mypinpai
  • 2026年好用的PTFE管道品牌,推荐哪家? - mypinpai

日新闻

  • 5分钟掌握Python进化算法:Geatpy高性能优化工具完全指南
  • Microchip 24AA044 EEPROM选型与应用全指南:从参数解析到实战编程
  • 华为的鸿蒙到底有多牛?为什么称作遥遥领先?

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号