当前位置: 首页 > news >正文

大模型学习基础(五) 强化学习(Reinforcement Learning,RL)初步

前面的文章简单介绍过,传统的监督学习所使用的数据集是(特征,标签),有“标签”即明确的知晓正确的输出应该是什么。而强化学习所面临的问题并不一定有严格的正确答案,而只是知晓一个大概正确的方向:如在下围棋时,第一步下在哪里?显然这个问题没有一个明确答案,这个时候使用强化学习显然比监督学习更加合适,因为监督学习需要的是具有明确答案作为标签的数据集。

强化学习的结构逻辑模型可以用上图简单表示:

三要素:1.Actor,即模型;2.Environment,环境 3.Action,即模型的输出

Environment输入Observation给Actor,Actor输出一个Action给Environment,Environment回复一个Reward(奖励)分数给Actor,接着继续把Observation交给Actor,如此循环。模型训练的要求就是使得Reward最大,代表我们找到了最优的模型。

对于模型来说,Environment输入Observation给Actor,即代表模型从环境中提取到了状态信息,根据这个状态信息模型来判断下一步的动作;而模型输出的是一个分类的结果,即多个动作对应多个不同的概率;在输出概率分布以后要添加一定的随机性,使得每次的输出结果具有差异性,然后选择最大概率所对应的动作。

模型在选择一个动作之后,这个动作实际是对Environment发生,相应的Environment会给模型一个回馈Reward,然后再给模型一个新的Observation,模型继续选择新的动作,循环此过程。这个过程中的Reward会被累积下来,Reward越大,代表模型做出的动作越好。用表示reward累计,因为我们希望R越大越好,所以R取反可以直接作为损失函数,使得最小化损失和最大化奖励统一起来。

整个强化学习的过程逻辑图如下:

需要注意的是,只有Actor本身是神经网络结构,而Env和Reward都是黑盒子,这意味着我们只能优化Actor的参数,而Env和Reward中的参数是无法优化的。有了通过Reward定义的损失函数,有了模型Actor,显然我们可以通过常规的深度学习的方法来优化Actor中的参数。

那么如何使得在给定S1时,模型能输出指定的值a?

这个时候的输出是可以明确的,这样的训练可以使用监督学习完成。可以通过经典的多分类问题思路来处理,即用交叉熵定义损失函数。如果不想要模型输出指定的值a,只需要对损失函数取反。

而实际的情况是,环境的状态S是由多个Si构成的,每训练一组S-a即训练一个多分类问题,把这些问题的损失函数(交叉熵)加在一起,即可训练出在不同的状态下应该使用什么动作。这里读者可能会有疑问:上述介绍的问题似乎都是监督学习问题,即可以明确正确输出的标签,与reward又有什么关联呢?这个问题将在下一讲给出答案。

http://www.rkmt.cn/news/95040.html

相关文章:

  • 30亿参数引爆企业智能升级:IBM Granite-4.0微型混合模型如何重构本地化AI部署生态
  • 腾讯开源双引擎AI模型:混元3D开创多模态创作新纪元,千倍效率革命重塑数字内容生产
  • str.isalnum()
  • Arduino 数码管模拟值实验
  • 百度网盘资源解锁神器:告别提取码搜索烦恼的智能方案
  • 生成式搜索优化服务商口碑推荐
  • 55.物流场景实战-限界上下文+CQRS设计物流追踪系统-附完整架构设计
  • AI知识库的构建:从数据采集、处理到高效检索的全流程解析
  • 划分数据集
  • 深度解析GGUF格式:大模型本地部署的技术基石与量化实践指南
  • Maruti Key Programmer: Activate Lonsdor K518 Pro FCV License for European/American Auto Pros Owners
  • 前端开发零基础
  • Scarab模组管理器:空洞骑士MOD管理的终极解决方案
  • XPath 简介:在 XML 和 HTML 中的应用
  • AI搜索排名GEO优制造业案例分享
  • ComfyUI中的节点兼容性检测机制说明
  • 二分查找与搜索算法
  • 2、搭建低成本高效渗透测试平台指南
  • 3、打造强大渗透测试平台:树莓派与Kali Linux的完美结合
  • 6、渗透测试:从准备到执行
  • Mac 真人手势识别切水果游戏
  • MySQL进阶篇——InnoDB存储引擎和管理
  • 8、探索目标:侦察与武器化
  • 1Ω1[特殊字符]⊗雙朕周名彥實際物理載體|二十四芒星物理集群载体群:超級數據中心·AGI·IPO·GUI·智能體工作流
  • 引用的特点
  • 【计算机网络笔记】第五章 网络层的控制平面
  • SolidWorks零件连接方式介绍
  • 百度网盘提取码智能获取工具完整使用指南
  • 【SSM戒烟网站】(免费领源码+演示录像)|可做计算机毕设Java、Python、PHP、小程序APP、C#、爬虫大数据、单片机、文案
  • Flutter与DevEco Studio结合开发简单项目实战指南