当前位置：首页 > news >正文

【ppo】强化学习ppo训练调参

news 2026/6/15 5:37:35

ppo特点

在策略更新时，限制新旧策略差异，避免一步更新把策略推翻
这意味着：

ppo 天然偏保守
一旦策略早期形成“错误偏好”，后续很难纠正
奖励设计和 early-stage 行为分布，决定成败

奖励函数

首先目标奖励要大、终局错误惩罚也需要大
每一步应该有小奖励/惩罚指导模型该前进的方向，但不要大过整体目标的奖励/惩罚；同时应鼓励探索或者绕路，这就应该设置随步数增长而衰减的奖励/惩罚

多阶段奖励函数

对于复杂问题的强化学习，可以先设置简单奖励函数训练模型，待模型学到简单规则后再修改奖励函数为更复杂的设计，让模型学到更精细化的动作

学习率

critic优化器的学习率要设置为明显小于actor优化器，actor的学习依赖于critic，如果critic不稳定会导致actor网络的震荡
可以参考以下学习率

actor_optimizer=torch.optim.Adam(actor_model.parameters(),lr=0.0005)critic_optimizer=torch.optim.Adam(critic_model.parameters(),lr=0.0001)

网络训练

训练频率

多个episode之后再训练一次网络，单个episode之后训练网络有可能会出现方差大，导致训练不稳定，多个episode训练网络时将advantage也平均会更稳定

训练阶段

ppo比较通用，但收敛较慢，对于前期难训练或者想加快训练的任务，可以使用ddqn等收敛快的模型先训练前期阶段，后改为使用ppo继续训练

actor/critic网络

对输入网络的数据进行归一化很重要，可以平滑特征曲面，更容易优化，减少局部最优解的情况

查看全文

http://www.rkmt.cn/news/175180.html

最新上海旧房翻新装修公司推荐！口碑评分皆名列前茅 - 速递信息

程序员就业城市全攻略：最新

Reflect和Object相比有什么区别

PyTorch-CUDA-v2.7镜像内置Python3.9，兼容主流AI框架

读共生：4.0时代的人机关系04前景展望

GitHub star飙升项目：PyTorch-CUDA-v2.7镜像获开发者一致好评

软工实践学习学期回顾——102301334黄伟圣

MobaXterm无密码打开ssh

AIPD美国人工智能专利（1976-2023）

PyTorch-CUDA-v2.7镜像优化内存管理，提升大模型加载效率

计算机毕业设计springboot订餐管理系统基于 SpringBoot 的智慧餐厅在线订餐平台 SpringBoot 驱动的数字化餐饮订单与座位预约系统

markdown写文档更方便：结合Jupyter与PyTorch-CUDA-v2.7输出实验报告

LLaMA-Factory：让大模型微调变得如此简单

上海交通大学《动手学大模型》编程实战课，课件ppt+教程

零基础也能轻松掌握LLM！这份《大语言模型实战》可视化指南，吴恩达都点赞

2025国产CMDB年度选型指南：全场景适配与差异化产品深度解析

WEB攻防-业务设计篇隐私合规检测资源拒绝服务配合项目

LLaMA Factory 如何对大模型进行微调、导出和量化！掌握这几步，轻松搞定

全面掌握 AI 智能体 30 个高频面试的问题与解答相关的核心知识点

当PI遇上自抗扰：永磁同步电机控制的暴力美学

论文怎么才能降ai率？10个写作指令+3款降ai率工具实测，帮你有效降低ai率

一站式深度学习环境：PyTorch-CUDA-v2.7集成CUDA工具包

JetBrains全家桶 12月最新版安装、授权、使用说明

05：kafka

服务器系统大盘点：6 大阵营、20 + 主流系统，一篇看懂差异与选择

06：redis

GEO贴牌代理的利润空间有多大？ - 源码云科技

PyTorch-CUDA-v2.7镜像内置Jupyter，支持在线调试与可视化

基于Spring Boot的数字科技风险报告管理系统

做一个简单的测试