【ppo】强化学习ppo训练调参-尧图网站建设

📅 发布时间：2026/6/19 11:34:38

ppo特点

在策略更新时，限制新旧策略差异，避免一步更新把策略推翻
这意味着：

对于复杂问题的强化学习，可以先设置简单奖励函数训练模型，待模型学到简单规则后再修改奖励函数为更复杂的设计，让模型学到更精细化的动作

critic优化器的学习率要设置为明显小于actor优化器，actor的学习依赖于critic，如果critic不稳定会导致actor网络的震荡
可以参考以下学习率

actor_optimizer=torch.optim.Adam(actor_model.parameters(),lr=0.0005)critic_optimizer=torch.optim.Adam(critic_model.parameters(),lr=0.0001)

多个episode之后再训练一次网络，单个episode之后训练网络有可能会出现方差大，导致训练不稳定，多个episode训练网络时将advantage也平均会更稳定

ppo比较通用，但收敛较慢，对于前期难训练或者想加快训练的任务，可以使用ddqn等收敛快的模型先训练前期阶段，后改为使用ppo继续训练

对输入网络的数据进行归一化很重要，可以平滑特征曲面，更容易优化，减少局部最优解的情况