2025_NIPS_Supervised Pretraining Can Learn In-Context Reinforcement Learning
文章核心总结
本文提出决策预训练Transformer(DPT),通过监督预训练让Transformer基于上下文交互数据集预测最优动作,实现上下文强化学习(RL)能力。DPT无需参数更新即可在新任务中完成在线探索与离线保守决策,理论上等价于贝叶斯后验采样,且能泛化到新任务、利用潜在结构超越预训练数据性能。
核心创新点
- 简洁的监督预训练目标:仅训练模型预测“上下文数据集+查询状态”对应的最优动作,无需显式训练探索或保守策略,自然涌现出相关能力。
- 在线/离线双场景适配:在线场景中从空数据集起步,通过交互填充数据并逐步优化决策;离线场景中直接利用静态数据集做保守决策,性能比肩经典算法。
- 泛化与结构利用能力:能适配预训练分布外的奖励、动态和任务,还可从次优预训练数据中挖掘潜在结构(如线性奖励),实现比生成预训练数据的算法更优的性能。
- 理论等价性突破:证明DPT等价于贝叶斯后验采样(PS),解决了PS计算复杂的痛点,为可扩展、样本高效的RL提供新路径。
翻译部分(Markdown格式)
Abstract
大型Transformer模型在多样化数据集上训练后,展现出卓越的上下文学习能力,即便未针对特定任务显式训练,也能实现优异的少样本性能。本文研究T
