当前位置: 首页 > news >正文

offline meta RL | 论文速读记录



目录
  • FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance Metric Learning and Behavior Regularization
  • Unsupervised Behavior Extraction via Random Intent Priors
  • Offline Meta Reinforcement Learning with In-Distribution Online Adaptation


FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance Metric Learning and Behavior Regularization

  • arxiv:https://arxiv.org/abs/2010.01112
  • GitHub:https://github.com/LanqingLi1993/FOCAL-latest
  • 来源:ICLR 2021,好像是 offline meta-RL 的经典文章。

Unsupervised Behavior Extraction via Random Intent Priors

  • arxiv:https://arxiv.org/abs/2310.18687
  • 来源:师兄的工作。感谢师弟的讲解。
  • 参考博客:直接看这个好了,CSDN | 【论文阅读笔记】UBER:用随机意图从无奖励数据中提取有用行为

主要内容:

  • setting:我们拿到了 single-task 的没有 reward 的 offline 数据集,现在想基于这个数据集,学出来可以做相关 task 的策略。
  • method:直接给这个数据集标注 N 个随机 reward,然后训出来 N 个策略,最后使用 PEX 方法进行 offline-to-online。
  • 理论(根据印象 可能有幻觉):
    • Proposition 4.1 指的是,给定一个 policy,总能构造出来一个 reward,使得这个 policy 是这个 reward 下的最优 policy 之一。
    • Theorem 4.2 指的是,只要目标行为在数据集中有较好的覆盖,我们就能有效地学习它。使用大小为 N 的 offline dataset,这样学出来的最好性能与 optimal policy 的差距,可以被 N bound 住。使用了 linear MDP 和 PEVI 那一套,我不懂这些理论。
    • Theorem 4.3 好像指的是,UBER 使用的构造 random reward 的方法可以离 true reward 足够近,是使用岭回归(ridge regression)来证明的,岭回归 我也不懂。
  • 实验:做了 d4rl 和 metaworld。还没仔细看。搬运参考博客的内容:

结果 1:随机意图确实产生多样且高质量行为。实验显示,UBER提取的行为策略:

  • 性能超越原始数据:特别是在原始数据质量不高时
  • 分布更加多样:回报分布的熵值显著高于原始数据集和行为克隆方法

结果 2:在线学习加速显著。在Mujoco运动任务中,UBER相比基线方法:

  • 学习速度更快:在相同环境步数下获得更高回报
  • 最终性能更好:在多数任务中达到或接近专家水平

结果3:跨任务迁移能力。在 Meta-World 的多任务实验中,UBER 学到的行为策略能够成功迁移到不同的下游任务,证明了其跨任务泛化能力。可能的原因是,随机奖励产生了通用运动原语(如"接近物体"、“精确控制末端执行器”),这些原语在不同任务间可迁移。

Offline Meta Reinforcement Learning with In-Distribution Online Adaptation

  • arxiv:https://arxiv.org/abs/2305.19529
  • 来源:师弟推荐的工作。感谢师弟的讲解。
  • 参考博客:直接看这个好了,【论文阅读笔记】IDAQ:离线元强化学习中的分布内在线适应
  • (就算有博客,也还是看不太懂,一是不太了解 multi-task 的具体 setting,二是不太能 get 到 offline 他们讲的 distribution shift 故事…… 找时间好好学一下,可能先看看 focal
http://www.rkmt.cn/news/75660.html

相关文章:

  • 无锡新世源科技有限公司的技术实力怎样?品牌知名度高不高?
  • 2025年比较好的喷射式绞丝染色机/低浴比成衣染色机品牌厂家排行榜
  • 2025年评价高的高粘瓷砖胶最新TOP厂家推荐
  • 2025年质量好的粉末TAIC交联剂行业内口碑厂家排行榜
  • 2025年热门的薄抽同步隐藏轨/全拉同步隐藏轨TOP品牌厂家排行榜
  • 2025年知名的太空梭游乐设施/旋转塔游乐设施高评价厂家推荐榜
  • 北京造价咨询公司哪家强?2025年最新行业观察与5家专业机构推荐
  • 2025年热门的大巴刹车盘厂家选购指南与推荐
  • 如何选择一家靠谱的律师事务所?2025年最新避坑指南及四川霖澳律所实例推荐
  • 2025年如何选择靠谱的咖啡豆工厂?五大甄选推荐及避坑指南全解析
  • 2025年度有实力的空气能十大品牌推荐:看哪家品牌售后服务优
  • 基本dos命令
  • 2025年口碑好的电缆桥架小桥架/大跨距电缆桥架最新TOP厂家排名
  • 2025年知名的两轴自动滚丝机厂家最新热销排行
  • 2025年知名的风管包裹防火板用户好评厂家排行
  • 2025年热门的Z型输送机/全密封输送机优质厂家推荐榜单
  • 2025年性价比高的大单槽/厨房水槽大单槽厂家最新权威实力榜
  • 想在固安县老家农村盖房子,靠谱的自建房公司口碑推荐。河北廊坊固安县自建房公司 / 机构权威测评推荐排行榜​
  • 2025年中国五大振动传感器品牌企业推荐:专业的传感器品牌企
  • vxe-gantt vue table 甘特图子任务多层级自定义模板用法
  • 2025年知名的精冲工艺门锁/精冲工艺调节功能家具行业内口碑厂家排行榜
  • 2025年知名的加厚雨衣厂家最新实力排行
  • 专业视角:PET胶带涂布机厂商的选择与推荐
  • 2025年口碑好的全包围汽车脚垫品牌推荐:看哪家汽车脚垫品质
  • 江西cpe膜厂家哪家好?2025复合包装袋定制厂家实力推荐
  • 2025加速度计厂家怎么挑?这些靠谱厂家值得关注
  • 找2025IMU 生产厂家/惯性测量单元厂家?精准匹配优质供
  • 2025非标定制吸杆厂家哪家好?优质内缩吸杆定制厂家汇总
  • 2025非标定制吸杆厂家哪家好?优质内缩吸杆定制厂家汇总
  • 2025年知名的高温螺杆清洗料/吹膜机清洗料厂家最新热销排行