当前位置: 首页 > news >正文

动态规划和马尔可夫决策对比

二、三大关键维度的效果对比

1. 问题适配性:动态规划适配 “简单线性流程”,MDP 适配 “复杂网状流程”

动态规划的优势在于 “处理线性、低维度的多阶段决策”,MDP 的优势在于 “处理多维、网状的动态决策”,二者在论文场景中的适配效果差异显著:

  • 动态规划在问题二中的适配效果(优)
    问题二的生产流程是 “零配件检测→成品装配→成品检测→不合格品处理” 的线性顺序,无分支工序(如无 “半成品单独销售”“多路径装配”),且状态仅涉及 “2 种零配件 + 1 种成品”,维度低、逻辑简单。
    动态规划通过 “逆序递推”(从不合格品处理倒推至零配件检测),可高效遍历 16 种决策路径(2×2×2×2),快速找到 “净成本最小” 的全局最优解(六种场景均为 “不检测、不拆解”),且计算复杂度低(多层嵌套循环即可实现),完全适配该场景的 “简单线性” 需求。
  • MDP 在问题三中的适配效果(优)
    问题三的生产流程是 “8 种零配件→3 种半成品(工序 1)→1 种成品(工序 2)” 的网状结构,存在 “半成品单独销售”“不合格成品拆解回收半成品” 等分支决策,状态涉及 12 种对象(8+3+1),维度高、逻辑复杂。
    动态规划无法直接处理 “多状态并行决策”(如同时判断 8 种零配件的检测 / 装配决策),而 MDP 通过 “状态空间 S(12 种对象)+ 动作空间 A(5 种决策)+ 转移概率 P(多环节转换随机性)” 的框架,可系统覆盖 “零配件装配→半成品销售→成品拆解” 的全流程决策,完美适配该场景的 “多维网状” 需求 —— 若强行用动态规划求解,需拆解成数十个子问题,会出现 “维度爆炸”(决策路径达 5¹² 种),计算无法实现。

2. 随机性处理能力:动态规划 “被动使用已知概率”,MDP “主动建模概率转移”

生产决策的核心随机性是 “次品率”,二者处理随机性的逻辑不同,导致在复杂场景中的效果差异:

  • 动态规划的随机性处理(局限)
    动态规划在问题二中仅 “被动代入已知次品率”,不主动建模随机性的传递过程。例如,计算 “成品检测决策成本” 时,直接使用题目给定的 “成品次品率 p_成品”,无需考虑 “p_成品如何由零配件次品率推导而来”(默认 “零配件合格则成品合格”),随机性处理停留在 “单环节静态概率” 层面。
    这种方式在 “状态简单、概率已知” 的问题二中可行,但在问题三中完全失效 —— 问题三需计算 “8 种零配件→3 种半成品” 的装配次品率(如半成品 1 的次品率 = 1-(1-p₁)×(1-p₂)×(1-p₃))、“半成品→成品” 的转移概率,动态规划无法主动建模这种 “多环节概率传递”,只能依赖外部计算结果,失去优化灵活性。
  • MDP 的随机性处理(优势)
    MDP 将随机性内化为 “状态转移概率 P (s'|s,a)”,主动建模 “动作→状态转换” 的概率逻辑。例如:
    • 零配件 1 执行 “装配” 动作后,转移到 “合格半成品 1” 的概率 =(1-p₁)×(1-p₂)×(1-p₃)(需联动其他 2 种零配件的次品率);
    • 成品执行 “销售” 动作后,转移到 “市场调换” 状态的概率 = p_成品,转移到 “正常销售” 状态的概率 = 1-p_成品。
      这种 “主动建模” 能力使 MDP 能处理 “多环节随机性传递”,在问题三中准确量化 “某一零配件不检测→半成品不合格→成品调换损失” 的连锁风险,而动态规划无法实现这种 “随机性链条” 的建模,效果远逊于 MDP。

3. 决策目标覆盖:动态规划聚焦 “短期成本最小”,MDP 聚焦 “长期奖励最大”

二者的决策目标导向不同,适配论文中 “不同阶段的企业需求”:

  • 动态规划的目标导向(短期局部)
    问题二的目标是 “最小化单批次生产的净成本”(短期目标),动态规划通过 “递推计算各阶段成本之和”,可精准实现这一目标。例如,对比 “零配件检测成本(2 元)” 与 “次品流入市场的调换损失(5 元)”,直接得出 “不检测更划算” 的结论,目标聚焦且计算直接。
  • MDP 的目标导向(长期全局)
    问题三的目标是 “多批次生产的长期收益最大”(长期目标),需考虑 “半成品销售的即时收益” 与 “成品装配的远期收益”“不合格品拆解的回收价值” 等长期权衡。
    MDP 通过 “奖励函数 R(即时收益 / 损失)+ 折扣因子 γ(未来奖励现值)” 的设计,可计算 “长期累积奖励”—— 例如,“半成品 1 销售” 的即时奖励 = 销售收入 - 销售成本,“半成品 1 装配为成品” 的远期奖励 = 成品销售收入 - 装配成本,MDP 通过贝尔曼方程平衡二者,最终选择 “半成品销售、成品检测” 的最优策略,而动态规划仅能计算单批次成本,无法覆盖 “长期收益” 目标,效果不足。
http://www.rkmt.cn/news/4007.html

相关文章:

  • 20250913 之所思 - 人生如梦
  • 动态规划
  • 马尔可夫决策
  • C语言学习
  • 《Python数据结构与算法分析》第二弹《2.2.2 异序词检测示例》
  • dfs序基础+树上差分
  • PKU_Compiler
  • 如何绕过谷歌反爬策略爬取搜索结果
  • Rust 生命周期详解 - 实践
  • 笔记《机器人动力学理论及其应用》上交桂凯博士-中科深谷机器人大讲堂第10期
  • [豪の学习笔记] 软考中级备考 基础复习#9
  • 2025CCPC南昌邀请赛游记
  • 软件工程第二次作业-个人项目
  • 2025年API安全建设方案最佳实践:七步五方法
  • Redis为什么适合做分布式锁? - 浪矢
  • 2024年以来,数学领域已有多位在国外顶尖高校取得终身教职的学者回国
  • form表单和表单控件
  • form表单
  • 【Zotero7】使用Attanger和百度同步空间如何进行同步?
  • 【重点!!!】必知必会必须掌握的serializers序列化器类之Serializer和ModelSerializer核心区别
  • 助教工作总结
  • [AGC022F] Checkers 题解
  • 程序员的副业变现之路:我的双平台矩阵打法
  • MyBatis注解的运用于条件搜索实践
  • 利用k8s client-go库创建CRD的informer的操作流程
  • Golang并发编程及其高级特性
  • 元推理agi不是象人思维,而是教人思维,人类脸上挂不住啊
  • 优惠券
  • 基于ArcGIS Pro SDK 3.4.2 + C# + .NET 8 的自动化制图系统初探
  • 单例模式:线程安全,以及volatile关键字