当前位置: 首页 > news >正文

马尔可夫决策

马尔可夫决策

马尔可夫决策:随机动态环境下序贯决策,其核心假设是 “马尔可夫性”—— 即 “未来状态的概率分布仅依赖于当前状态,与当前状态之前的历史无关”。MDP 的最终目标是找到一套最优策略 π(π: S→A,即 “在每个状态下选择哪个动作” 的规则)

马尔可夫决策可以表示成一个四元组,S(状态空间)、A(动作空间)、P(状态转移概率)、R(奖励函数)

1. 状态空间 S

  • 零配件状态(8 种):S₁= 零配件 1、S₂= 零配件 2、…、S₈= 零配件 8(每个零配件为独立状态,需单独决策是否检测 / 装配);
  • 半成品状态(3 种):S₉= 半成品 1、S₁₀= 半成品 2、S₁₁= 半成品 3(由不同零配件装配而成,需决策是否检测 / 销售 / 继续装配);
  • 成品状态(1 种):S₁₂= 成品(由 3 个半成品装配而成,需决策是否检测 / 销售 / 拆解)。

2. 动作空间 A:定义每个状态下的决策选项

动作空间 A 包含 5 种核心决策动作,覆盖生产全流程的关键选择,且不同状态下可执行的动作需符合生产逻辑(如 “拆解” 仅适用于成品,不适用于零配件):

3. 状态转移概率 P:量化生产中的随机性

状态转移概率 P (s'|s,a) 表示 “在状态 s 下执行动作 a 后,转移到状态 s' 的概率”,论文结合 “次品率” 和 “装配规则” 量化这一概率,核心设定如下:

4. 奖励函数 R:用 “收益 / 损失” 引导最优决策

奖励函数 R (s,a) 是 MDP 的 “目标导向”,通过对 “状态 - 动作” 组合赋予正负值(正值 = 奖励,负值 = 惩罚),量化该决策的即时收益 / 成本,核心设计原则是 “收益 - 成本 = 净奖励”

马尔可夫决策MDP的求解:从 “策略评估” 到 “最优决策:求解马尔可夫决策使用模拟退火算法,因此,论文引入模拟退火算法,通过 “随机搜索 + 梯度降温” 

http://www.rkmt.cn/news/4001.html

相关文章:

  • C语言学习
  • 《Python数据结构与算法分析》第二弹《2.2.2 异序词检测示例》
  • dfs序基础+树上差分
  • PKU_Compiler
  • 如何绕过谷歌反爬策略爬取搜索结果
  • Rust 生命周期详解 - 实践
  • 笔记《机器人动力学理论及其应用》上交桂凯博士-中科深谷机器人大讲堂第10期
  • [豪の学习笔记] 软考中级备考 基础复习#9
  • 2025CCPC南昌邀请赛游记
  • 软件工程第二次作业-个人项目
  • 2025年API安全建设方案最佳实践:七步五方法
  • Redis为什么适合做分布式锁? - 浪矢
  • 2024年以来,数学领域已有多位在国外顶尖高校取得终身教职的学者回国
  • form表单和表单控件
  • form表单
  • 【Zotero7】使用Attanger和百度同步空间如何进行同步?
  • 【重点!!!】必知必会必须掌握的serializers序列化器类之Serializer和ModelSerializer核心区别
  • 助教工作总结
  • [AGC022F] Checkers 题解
  • 程序员的副业变现之路:我的双平台矩阵打法
  • MyBatis注解的运用于条件搜索实践
  • 利用k8s client-go库创建CRD的informer的操作流程
  • Golang并发编程及其高级特性
  • 元推理agi不是象人思维,而是教人思维,人类脸上挂不住啊
  • 优惠券
  • 基于ArcGIS Pro SDK 3.4.2 + C# + .NET 8 的自动化制图系统初探
  • 单例模式:线程安全,以及volatile关键字
  • 用 Python 和 Tesseract 实现验证码识别
  • 基于 Weiler–Atherton 算法的 IoU 求解
  • 25.9.13 字符编码标准