当前位置: 首页 > news >正文

【ppo】强化学习ppo训练调参

ppo特点

在策略更新时,限制新旧策略差异,避免一步更新把策略推翻
这意味着:

  • ppo 天然偏保守
  • 一旦策略早期形成“错误偏好”,后续很难纠正
  • 奖励设计和 early-stage 行为分布,决定成败

奖励函数

  • 首先目标奖励要大、终局错误惩罚也需要大
  • 每一步应该有小奖励/惩罚指导模型该前进的方向,但不要大过整体目标的奖励/惩罚;同时应鼓励探索或者绕路,这就应该设置随步数增长而衰减的奖励/惩罚

多阶段奖励函数

对于复杂问题的强化学习,可以先设置简单奖励函数训练模型,待模型学到简单规则后再修改奖励函数为更复杂的设计,让模型学到更精细化的动作

学习率

critic优化器的学习率要设置为明显小于actor优化器,actor的学习依赖于critic,如果critic不稳定会导致actor网络的震荡
可以参考以下学习率

actor_optimizer=torch.optim.Adam(actor_model.parameters(),lr=0.0005)critic_optimizer=torch.optim.Adam(critic_model.parameters(),lr=0.0001)

网络训练

训练频率

多个episode之后再训练一次网络,单个episode之后训练网络有可能会出现方差大,导致训练不稳定,多个episode训练网络时将advantage也平均会更稳定

训练阶段

ppo比较通用,但收敛较慢,对于前期难训练或者想加快训练的任务,可以使用ddqn等收敛快的模型先训练前期阶段,后改为使用ppo继续训练

actor/critic网络

对输入网络的数据进行归一化很重要,可以平滑特征曲面,更容易优化,减少局部最优解的情况

http://www.rkmt.cn/news/175180.html

相关文章:

  • 最新上海旧房翻新装修公司推荐!口碑评分皆名列前 茅 - 速递信息
  • 程序员就业城市全攻略:最新
  • Reflect和Object相比有什么区别
  • PyTorch-CUDA-v2.7镜像内置Python3.9,兼容主流AI框架
  • 读共生:4.0时代的人机关系04前景展望
  • GitHub star飙升项目:PyTorch-CUDA-v2.7镜像获开发者一致好评
  • 软工实践学习 学期回顾——102301334黄伟圣
  • MobaXterm无密码打开ssh
  • AIPD美国人工智能专利(1976-2023)
  • PyTorch-CUDA-v2.7镜像优化内存管理,提升大模型加载效率
  • 计算机毕业设计springboot订餐管理系统 基于 SpringBoot 的智慧餐厅在线订餐平台 SpringBoot 驱动的数字化餐饮订单与座位预约系统
  • markdown写文档更方便:结合Jupyter与PyTorch-CUDA-v2.7输出实验报告
  • LLaMA-Factory:让大模型微调变得如此简单
  • 上海交通大学《动手学大模型》编程实战课,课件ppt+教程
  • 零基础也能轻松掌握LLM!这份《大语言模型实战》可视化指南,吴恩达都点赞
  • 2025国产CMDB年度选型指南:全场景适配与差异化产品深度解析
  • WEB攻防-业务设计篇隐私合规检测资源拒绝服务配合项目
  • LLaMA Factory 如何对大模型进行微调、导出和量化!掌握这几步,轻松搞定
  • 全面掌握 AI 智能体 30 个高频面试的问题与解答相关的核心知识点
  • 当PI遇上自抗扰:永磁同步电机控制的暴力美学
  • 论文怎么才能降ai率?10个写作指令+3款降ai率工具实测,帮你有效降低ai率
  • 一站式深度学习环境:PyTorch-CUDA-v2.7集成CUDA工具包
  • JetBrains全家桶 12月最新版 安装、授权、使用说明
  • 05:kafka
  • 服务器系统大盘点:6 大阵营、20 + 主流系统,一篇看懂差异与选择
  • 06:redis
  • GEO贴牌代理的利润空间有多大? - 源码云科技
  • PyTorch-CUDA-v2.7镜像内置Jupyter,支持在线调试与可视化
  • 基于Spring Boot的数字科技风险报告管理系统
  • 做一个简单的测试