当前位置: 首页 > news >正文

2025_NIPS_Supervised Pretraining Can Learn In-Context Reinforcement Learning

文章核心总结

本文提出决策预训练Transformer(DPT),通过监督预训练让Transformer基于上下文交互数据集预测最优动作,实现上下文强化学习(RL)能力。DPT无需参数更新即可在新任务中完成在线探索与离线保守决策,理论上等价于贝叶斯后验采样,且能泛化到新任务、利用潜在结构超越预训练数据性能。

核心创新点

  1. 简洁的监督预训练目标:仅训练模型预测“上下文数据集+查询状态”对应的最优动作,无需显式训练探索或保守策略,自然涌现出相关能力。
  2. 在线/离线双场景适配:在线场景中从空数据集起步,通过交互填充数据并逐步优化决策;离线场景中直接利用静态数据集做保守决策,性能比肩经典算法。
  3. 泛化与结构利用能力:能适配预训练分布外的奖励、动态和任务,还可从次优预训练数据中挖掘潜在结构(如线性奖励),实现比生成预训练数据的算法更优的性能。
  4. 理论等价性突破:证明DPT等价于贝叶斯后验采样(PS),解决了PS计算复杂的痛点,为可扩展、样本高效的RL提供新路径。

翻译部分(Markdown格式)

Abstract

大型Transformer模型在多样化数据集上训练后,展现出卓越的上下文学习能力,即便未针对特定任务显式训练,也能实现优异的少样本性能。本文研究T

http://www.rkmt.cn/news/1464612.html

相关文章:

  • 2026年热门的定制不锈钢风口/中央空调出风口/不锈钢圆散流风口/不锈钢旋流风口公司选择指南 - 行业平台推荐
  • 2026年深圳知识产权诉讼律师推荐 钟泽江双资质实战护航 - 本地品牌推荐
  • 国内网络环境下,如何快速搞定Rust安装和VS Code配置(附镜像加速)
  • 2026年6月宴会酒店哪家好,艺术婚礼/生日宴/寿宴/高端宴会/定制婚礼/订婚宴/公司年会/宴会/婚宴,宴会中心推荐 - 品牌推荐师
  • Max抢票机器人:2025年免费开源抢票神器终极指南
  • 从零上手DeepSeek API:Node.js手把手完整接入教程
  • 智能结对编程:如何利用快马AI辅助优化ayx·爱游戏网页弹球项目的代码与性能
  • IM-PINN:基于内禀度量的物理信息神经网络在反应扩散系统中的应用
  • 在LVM上安装Gbase 8S
  • 基于微信小程序的复习计划管理系统源码+论文
  • SQL内核修炼:ICU 医疗监护 — 多设备“危险重叠期”识别 | 详解扫描线算法
  • SpringBoot+Vue高校机动车认证信息管理系统源码+论文
  • Python map、filter、zip 三大函数式核心用法与工程实践
  • 免费降重工具精选:AI智能改写高效降低重复率 - 仙仙学姐测评
  • SpringBoot+Vue高校教室设备故障报修信息管理系统源码+论文
  • 从Hello World到第一个项目:用VS Code + Rust-Analyzer插件打造你的高效Rust工作流
  • JSON对比终极指南:3分钟掌握可视化差异分析神器
  • 2026年四川商用摆摊大伞/岗亭遮阳伞公司对比推荐 - 行业平台推荐
  • 2026年评价高的哈尔滨收银系统/哈尔滨小程序开发/哈尔滨GEO/哈尔滨电子签品质保障公司 - 品牌宣传支持者
  • Claude深度集成开发工作流:工程化上下文管理实践
  • 多维聚合实战:从OLAP立方体构建到实时聚合优化
  • 单卡RTX 4090微调20B多语言大模型做推理训练实战
  • 百度网盘全速下载终极指南:告别限速,轻松获取文件
  • 2026年热门的太阳伞/岗亭遮阳伞长期合作厂家推荐 - 品牌宣传支持者
  • 从PHM 2012挑战赛看工业预测性维护:如何用轴承振动数据训练你的第一个RUL模型
  • Navicat连Oracle 11g报错ORA-28547?别慌,手把手教你替换oci.dll文件搞定
  • SIMULINK仿真结果导出与绘图避坑指南:To Workspace设置、时间轴对齐与双坐标轴处理
  • AI Agent 全栈落地精讲:从技术演进到金融企业级实战,零基础程序员转行必看
  • 重要任务-----制作30个介绍APP主要功能的视频
  • PaLM-E:具身智能的端到端多模态统一认知架构