当前位置: 首页 > news >正文

大模型“睡眠”机制:提升推理能力,训练成本却线性增长?

1. 长上下文困境

很长一段时间,「长上下文」是各大模型厂商军备竞赛焦点,从 128K 到 1M,再到更长上下文窗口。业界认为窗口足够大,模型就能记住更多内容、处理更复杂任务。但问题也随之而来,上下文越长,KV Cache 越臃肿,导致显存被「吃光」、推理速度缓慢、成本上升。而且把更多 token 放进窗口,不代表模型能将信息转化为可推理的长期记忆,在复杂推理任务中,模型常因「记不住细节」而翻车。

2. 新视角:语言模型需要睡眠

近日,卡内基梅隆大学(CMU)联合马里兰大学等在新论文《Language Models Need Sleep》中提出有意思的视角,让 LLM「睡一觉」。这里的「睡眠」是一种类似睡眠的「记忆巩固机制」。作者认为基于 Transformer 的大语言模型用于长程任务时,注意力机制扩展性较差,为此研究出该机制。在睡眠过程中,模型对累积的上下文执行 N 次离线递归前向传播,通过学习得到的局部规则更新状态空间模型(SSM)模块中的快速权重(fast weights)。推理阶段,这种方法把额外计算转移到「睡眠」阶段,保持模型「醒着」预测时的延迟不变。

3. 从动物睡眠获得启发

论文灵感来自动物睡眠中的记忆巩固过程。神经科学研究认为,动物从短期记忆到长期记忆的转移受海马体 replay 机制支持,尤其在睡眠期间,短期海马体记忆会被重新激活并巩固到皮层突触权重中。基于此,作者提出把上下文窗口记忆转移到持久权重中的方法。当模型上下文窗口在推理过程中被填满,模型进入「睡眠」状态,对累积的上下文执行多次前向传播,通过学习得到的局部规则递归更新 fast weights,此阶段模型不接收外部输入 token。巩固完成后,上下文窗口清空,模型带着更新后的 fast weights 继续运行。训练过程中,模型通过整个过程的反向传播进行端到端优化,以最大化睡眠之后的任务表现。大模型训练过程分为「醒着」和「睡眠」两个阶段。「醒着」阶段,模型像普通 Transformer 一样正常工作,接收长文本输入,快速给出预测和回复;「睡眠」阶段,模型进入「离线睡眠状态」,对积累的上下文进行 N 次循环往复的离线处理,将近期上下文中的关键细节转化为持久的 fast weights 并写入 SSM 模块。

4. 实验:睡得越久,推理越强?

为验证增加睡眠时 N 能否提升模型对「旧」上下文的推理能力,作者进行系列实验。以更接近自然语言的数学推理任务 GSM - Infinite 为例,它通过添加干扰 token 拉长题目,用所需算术操作数控制难度。作者在 Jet - Nemotron 2B 和 Ouro 1.4B 两个预训练模型上测试模型的「睡眠」机制。结果显示,题目越难,「睡眠」带来的提升越明显。对于 Jet - Nemotron 2B,6 次 sleep loop 将 6 步运算题准确率从 0.742 提升到 0.812,将 8 步运算题从 0.351 提升到 0.388;对于 Ouro 1.4B,4 次 sleep loop 将 6 步运算题准确率从 0.419 提升到 0.615,将 8 步运算题从 0.210 提升到 0.272。「睡眠」机制对简单题帮助相对不明显,在复杂任务中,「睡眠」阶段的额外计算开始发挥作用。

5. 局限性:效果明显,代价同样明显

作者坦言,这种方法通过把额外递归计算转移到巩固阶段,保持了预测阶段的单次前向传播延迟,但收益并非免费。训练过程中,需要执行 N 次更深的前向和反向传播,会让训练变慢且可能不稳定。执行 N 次带来效果明显提升,但训练成本也随其线性增长。这项工作目前主要是方法论探索,该方法主要贡献在方法论层面,评估基于受控合成任务和中等规模预训练模型,还不是在超大规模商用模型、真实长程 Agent 系统中充分验证的成熟方案。

http://www.rkmt.cn/news/1475295.html

相关文章:

  • 手把手教你用ESP8266+Arduino+PubSubClient库,5分钟搞定OneNet旧版MQTT接入(附完整代码)
  • 企业法务部搭建诉讼管理看板的完整指南:从数据收集到可视化监控
  • AT91SAM9260 Nor Flash Bootstrap移植实战:从零适配启动引导程序
  • MCprep终极指南:让Minecraft动画制作变得简单快速
  • 2026济南黄金回收行业领军巨头!合扬稳居行业标杆领跑全城回收市场 - 开心测评
  • 从电热水壶维修看电子产品可靠性设计与可维护性
  • 手把手教你用STM32F103和LM358搭建PT100测温电路(附完整代码与调试心得)
  • 2025-2026年全球岗位外包公司推荐:五大口碑产品评测核心能力选择指南价格
  • 如何在Mac上零成本实现专业医学影像分析?Horos免费开源工具终极指南
  • Simple Live:跨平台直播聚合应用终极指南,告别频繁切换的烦恼
  • Windows右键菜单终极管理指南:如何快速掌握ContextMenuManager
  • MATLAB内点法无功优化代码包:含IEEE14节点完整算例与逐行中文注释
  • GNOME扩展管理器终极指南:一站式安装、管理与升级
  • 体育场馆预约系统小程序/网站开发方案|功能详解+个人开发报价+合作全流程
  • 【C语言】实现简单动态数组(线程安全)
  • 探索oled高级显示:借助快马ai模型生成动画与特效代码
  • 嘴炮Hermes:我干完了!实际啥也没做,咋整?
  • 当Git操作失误时,如何优雅地按下“撤销“键?
  • 2026 成都黄金回收商户实力测评,收的顶全国连锁高价夺冠稳居同城榜首 - 奢侈品回收评测
  • 上班族 AI 学习方案 第九周Agent 智能体原理 + 实操LangChain
  • deepseek 适配了 华为升腾 是不是 用了类似Megatron-LM deepSpeed框架的??
  • 智能进化算法:借助快马平台AI模型优化杜鹃算法的莱维飞行与参数策略
  • 工程师思维:冗余|冗余越多,容错能力越强
  • 2026合肥黄金回收权威常识,龙头品牌测评,高效变现攻略 - 奢侈品回收评测
  • 别再只盯着SENet了!用PyTorch手把手实现STN,让你的CNN模型学会‘自动对焦’
  • 2026年动态人机工学椅主流生产企业发展现状分析(附核心数据) - 多才菠萝
  • 2026年AI模型接入深度复盘:六大聚合平台实测,谁才是生产环境的最优解?
  • 2026古法黄金出手指南!沈阳高分回收龙头透明高价收的顶夺魁 - 奢侈品回收评测
  • 为什么92%的CSDN AI营销新人第一周就踩坑?揭秘内容营销与信息流广告的3层组织墙、2套数据底座、1个不可逆分账逻辑
  • 基于DS18B20与AT89S51的高精度数字温度计设计与实现