当前位置：首页 > news >正文

2025_NIPS_Supervised Pretraining Can Learn In-Context Reinforcement Learning

news 2026/6/5 4:53:20

文章核心总结

本文提出决策预训练Transformer（DPT），通过监督预训练让Transformer基于上下文交互数据集预测最优动作，实现上下文强化学习（RL）能力。DPT无需参数更新即可在新任务中完成在线探索与离线保守决策，理论上等价于贝叶斯后验采样，且能泛化到新任务、利用潜在结构超越预训练数据性能。

核心创新点

简洁的监督预训练目标：仅训练模型预测“上下文数据集+查询状态”对应的最优动作，无需显式训练探索或保守策略，自然涌现出相关能力。
在线/离线双场景适配：在线场景中从空数据集起步，通过交互填充数据并逐步优化决策；离线场景中直接利用静态数据集做保守决策，性能比肩经典算法。
泛化与结构利用能力：能适配预训练分布外的奖励、动态和任务，还可从次优预训练数据中挖掘潜在结构（如线性奖励），实现比生成预训练数据的算法更优的性能。
理论等价性突破：证明DPT等价于贝叶斯后验采样（PS），解决了PS计算复杂的痛点，为可扩展、样本高效的RL提供新路径。

翻译部分（Markdown格式）

Abstract

大型Transformer模型在多样化数据集上训练后，展现出卓越的上下文学习能力，即便未针对特定任务显式训练，也能实现优异的少样本性能。本文研究T

http://www.rkmt.cn/news/1464612.html

相关文章：

2026年热门的定制不锈钢风口/中央空调出风口/不锈钢圆散流风口/不锈钢旋流风口公司选择指南 - 行业平台推荐

2026年深圳知识产权诉讼律师推荐钟泽江双资质实战护航 - 本地品牌推荐

国内网络环境下，如何快速搞定Rust安装和VS Code配置（附镜像加速）

2026年6月宴会酒店哪家好，艺术婚礼/生日宴/寿宴/高端宴会/定制婚礼/订婚宴/公司年会/宴会/婚宴，宴会中心推荐 - 品牌推荐师

Max抢票机器人：2025年免费开源抢票神器终极指南

从零上手DeepSeek API：Node.js手把手完整接入教程

智能结对编程：如何利用快马AI辅助优化ayx·爱游戏网页弹球项目的代码与性能

IM-PINN：基于内禀度量的物理信息神经网络在反应扩散系统中的应用

在LVM上安装Gbase 8S

基于微信小程序的复习计划管理系统源码+论文

SQL内核修炼：ICU 医疗监护 — 多设备“危险重叠期”识别 | 详解扫描线算法

SpringBoot+Vue高校机动车认证信息管理系统源码+论文

Python map、filter、zip 三大函数式核心用法与工程实践

免费降重工具精选：AI智能改写高效降低重复率 - 仙仙学姐测评

SpringBoot+Vue高校教室设备故障报修信息管理系统源码+论文

从Hello World到第一个项目：用VS Code + Rust-Analyzer插件打造你的高效Rust工作流

JSON对比终极指南：3分钟掌握可视化差异分析神器

2026年四川商用摆摊大伞/岗亭遮阳伞公司对比推荐 - 行业平台推荐

2026年评价高的哈尔滨收银系统/哈尔滨小程序开发/哈尔滨GEO/哈尔滨电子签品质保障公司 - 品牌宣传支持者

Claude深度集成开发工作流：工程化上下文管理实践

多维聚合实战：从OLAP立方体构建到实时聚合优化

单卡RTX 4090微调20B多语言大模型做推理训练实战

百度网盘全速下载终极指南：告别限速，轻松获取文件

2026年热门的太阳伞/岗亭遮阳伞长期合作厂家推荐 - 品牌宣传支持者

从PHM 2012挑战赛看工业预测性维护：如何用轴承振动数据训练你的第一个RUL模型

Navicat连Oracle 11g报错ORA-28547？别慌，手把手教你替换oci.dll文件搞定

SIMULINK仿真结果导出与绘图避坑指南：To Workspace设置、时间轴对齐与双坐标轴处理

AI Agent 全栈落地精讲：从技术演进到金融企业级实战，零基础程序员转行必看

重要任务-----制作30个介绍APP主要功能的视频

PaLM-E：具身智能的端到端多模态统一认知架构