尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

阿里二面:说说LLM Agent 6大 plan 范式: CoT、ToT、GoT、ReAct、Plan-and-Execute、Reflexion?怎么做的选型? 小伙伴懵了

阿里二面:说说LLM Agent 6大 plan 范式: CoT、ToT、GoT、ReAct、Plan-and-Execute、Reflexion?怎么做的选型? 小伙伴懵了
📅 发布时间:2026/6/22 14:00:30

一、题干核心拆解与规划能力底层定义

本题是大模型Agent方向面试的核心高频深度题,重点考察求职者LLM推理范式演进认知、Agent规划模块系统性架构理解、工程落地权衡思维、业务场景适配能力。

题目 给出了 CoT、ToT、GoT、ReAct、Plan-and-Execute、Reflexion 等 6大 规划范式 关键词,但核心并非考察名词释义背诵,而是要求求职者建立完整、闭环的技术认知体系,能够打通学术原理与工业落地的壁垒。

面试官核心考察三个核心维度:

  • 第一,是否能够完整梳理线性链→多路径投票→树形搜索→图结构推理的全链路技术演进逻辑,精准定位每一代技术迭代解决的前置痛点、优化方向与固有缺陷;
  • 第二,是否能够清晰区分Agent内部思维过程规划与Agent外部行动过程规划两 层规划的边界、底层差异与适用场景;
  • 第三,是否具备成熟的工程架构思维,能够从模型复杂度、算力开销、推理准确率、业务适配性四个核心维度,完成不同规划方案的科学选型与取舍决策,而非盲目堆砌高阶技术。

1.1 规划在 Agent 体系中的核心定位

工业界标准的自主智能Agent,核心遵循闭环四大核心能力架构:感知(Perception)→规划(Planning)→记忆(Memory)→行动(Action),四大模块各司其职、协同闭环,支撑Agent从被动交互走向自主决策、自主执行、自主迭代。

其中,规划模块是整个Agent系统的核心大脑与决策中枢,也是破除行业认知误区、厘清LLM技术体系的关键核心。

市面上绝大多数技术文档与面试回答存在根本性认知混淆:将LLM各类规划相关技术笼统归为同类方案,简单并列选型、混淆替代关系。

但宏观思维来看,LLM的规划能力本质分为「内部思维过程规划」和「外部行动过程规划」两个完全独立、正交互补的层级,不存在替代关系,而是存在「思考推导过程+任务执行过程」的组合协同关系,这也是整套Agent规划体系的底层核心基石。

规划模块承接感知模块的环境与用户信息、依托记忆模块的历史经验,通过双层规划协同输出可落地的行动策略,这也是传统对话Chatbot与高阶智能Agent最核心的本质分水岭,直接决定智能体复杂任务处理能力上限与商业化落地价值。

1.1.1 传统Chatbot与LLM Agent的核心能力差异(基于双层规划体系)

传统通用Chatbot:仅具备原生模型的基础直觉推理能力,无结构化内部思维规划、无外部行动序列规划。核心为被动应答模式,依赖单次上下文匹配与预训练知识,仅能完成点对点简单问答、文本生成、基础分类等纯文本单轮任务。不具备复杂问题分层拆解、多步骤逻辑调度、推理回溯纠错、动态任务调整能力,无法联动外部工具、无法处理长时序、多约束、多分支的复杂闭环任务,属于纯被动式智能交互工具。

具备双层规划能力的LLM Agent:同时拥有内层思维规划+外层行动规划的完整主动式决策能力,是目标导向的高阶智能体系。针对用户模糊、抽象、复杂的全局目标,可通过内层推理结构完成逻辑拆解、路径择优、推理校验,再通过外层执行架构完成行动排序、异常修正、闭环迭代,最终将非结构化自然语言需求,转化为有序、可校验、可迭代、可落地的原子动作序列,完美适配工具调用、长流程业务、多约束决策等复杂商业化场景。

1.1.2 双层规划能力的认知科学底层原理

从认知科学与大模型底层原理来看,LLM双层规划体系,本质是完整复刻人类双系统认知机制(System1直觉快思考 / System2审慎慢思考),且精准对应两大技术层面:

  • 原生大模型单次文本生成属于System1直觉快思考,依赖概率采样快速输出结果,无结构化约束、无步骤校验,极易出现逻辑跳跃、推理断层、幻觉累积、局部最优等问题,这也是传统Chatbot能力受限的核心根源。
  • 而LLM的双层规划技术,是对System1直觉快思考+System2审慎慢思考的完整建模

且分层对应、各司其职:

  • 内层思维过程规划(推理结构层面):通过CoT、ToT、GoT等结构化推理范式,强制模型完成分步拆解、多路径探索、发散收敛、推理校验,优化内部思考逻辑,解决「想不清、想不准、容错低」的问题,是对人类审慎思考过程的纯文本建模;
  • 外层行动序列规划(执行循环层面):通过ReAct、Plan-and-Execute、Reflexion等范式,规范「思考-行动-观测-复盘」的外部交互闭环,解决「不会做、做不稳、不能迭代」的问题,是人类落地执行、复盘优化行为逻辑的工程化实现。

两大层级协同发力,从根源上解决了原生大模型长推理幻觉、逻辑断裂、无闭环、无迭代的原生缺陷,构成了高阶LLM Agent的完整规划能力体系。

二、推理层规划主线:链→多链投票→树→图完整演进(学术主流范式)

LLM推理层规划的学术演进严格遵循结构复杂度递增、推理能力递增、场景覆盖递增、算力开销递增、可控性递增的核心规律,从最基础的线性单链推理,逐步迭代至多路径容错、树形搜索择优、图结构发散收敛。

每一次技术迭代都精准解决上一代方案的核心痛点,补齐推理短板,同时也会带来算力、复杂度、工程落地成本的提升,形成一套完整的递进式技术迭代体系,适配从简单问答到复杂多源推理的全场景需求。

2.1 CoT(Chain-of-Thought,思维链,2022 Google)—— 线性推理层规划基石

核心原理

在CoT技术诞生之前,行业通用的标准提示词范式为直接问答范式,强制大模型在单次前向传播过程中,跳过中间推导环节、直接输出最终答案,全程无任何可解释的中间推理步骤。

这种极简模式在简单问答、短文本分类、基础语义匹配等低难度任务中可以正常使用,但在多步数学计算、多层嵌套逻辑推理、复杂问题拆解、因果推导等场景中,极易出现逻辑跳跃、计算错误、推理断层、结论幻觉等问题,核心根源是模型单次承载的推理负荷过高,无法一次性完成多维度、多步骤的复杂逻辑运算。

CoT的核心创新与突破性价值,就是强制模型显式输出所有中间推理节点,将一次性高负荷复杂推理拆解为多步串行递进的子推理过程,让每一步推导的中间结论,都作为下一步推理的前置依据与输入基础,大幅降低单次推理的计算与逻辑负荷,充分激活大模型的 emergent reasoning(涌现推理)能力,让原本无法解决的多步复杂推理任务实现落地。

CoT在工业落地中包含两种主流形态,适配不同的业务场景与落地成本需求,覆盖通用场景与垂直定制场景:

【1】Few-shot CoT(小样本思维链):在Prompt模板中内置3~8组高质量标准样本,每组样本严格遵循「原始问题+完整分步推理过程+最终标准答案」的格式,让模型通过模仿学习,精准复刻垂直场景下的分步推理逻辑范式,适配金融、教育、工业等各类垂直领域的定制化推理场景,推理精度更高、逻辑性更强。

【2】Zero-shot CoT(零样本思维链):极简通用型落地方案,无需配置任何样本示例、无需定制Prompt模板,仅需在原始问题末尾添加通用触发指令Let's think step by step,即可唤醒大模型自带的分步推理能力,适配绝大多数通用推理场景,工程改造成本极低、落地效率极高,是目前工业化落地的基线标配方案。

数学形式与固有缺陷

该线性技术架构存在无法规避的致命短板:单链路不可逆、不可回溯、单点错误全局传导。

在整个推理链条中,只要任意一个中间步骤出现计算错误、逻辑偏差、幻觉输出、信息遗漏,后续所有推导步骤都会基于错误结论继续推演,误差持续累积,最终导致整体答案完全失效。

同时,单一线性链路完全无法适配多解法、多决策分支、需要试探对比、择优取舍的复杂问题,例如24点运算、逻辑谜题、多方案决策、最优路径选择等场景,推理上限极低,仅能满足单逻辑路径的基础推理需求。

适用场景、算力成本

CoT整体算力开销极低,仅比传统直接问答模式增加少量推理过程Token输出,工程改造成本几乎可以忽略不计,兼容性极强,适配所有大模型基座。

主要适配轻量化推理场景,包括短步骤数学计算、简单常识逻辑问答、低时延在线交互问答、单路径固定逻辑的业务判断、基础文本推理等场景。

核心缺点是容错率差、复杂任务适配能力弱、无纠错回溯机制,仅能满足基础推理需求,无法支撑高阶复杂Agent任务。

Langchain CoT 极简可运行Demo

基于Langchain原生Prompt模板+大模型调用,实现标准Zero-shot CoT推理,适配所有LLM基座,代码极简、可直接落地:

尼恩提示:原文3w字以上, 超过平台限制, 此处省略 1000字,具体请参考 免费pdf。

完整版本,请参考 尼恩 免费百度网盘 免费pdf ,点赞收藏本文后,截图 找尼恩获取

2.2 Self-Consistency(自一致性 SC-CoT) 多路径投票,优化 CoT 缺陷

核心原理

针对原生CoT单路径容错率低、单次推理随机性强、容易出现偶然出错、无容错机制的核心痛点,行业基于CoT迭代提出了Self-Consistency自一致性优化方案。

其核心设计思路是并行多路径采样+统计投票收敛,通过提升推理的多样性、覆盖更多推理路径,从统计层面规避单路径推理的偶然性误差,大幅提升推理结果的稳定性与准确率。

具体落地方式为:调高模型生成的temperature温度参数,增强模型推理的随机性与多样性,针对同一个输入问题,批量生成K KK条相互独立的CoT推理链,每条推理链独立完成分步推导、互不干扰,并输出专属答案,最终通过多数投票原则,筛选出全局出现频次最高的答案作为最终推理结果。

优缺点

✅ 核心优势:无需改动原有CoT推理核心架构,无需复杂工程改造,仅通过多路径采样与投票聚合机制,即可低成本大幅提升数学推理、常识推理、逻辑判断题型的准确率,有效规避单路径推理的偶然错误、局部幻觉问题,大幅提升推理鲁棒性,落地简单、效果直观、通用性极强。

❌ 核心缺陷:多条推理路径完全相互隔离,独立推演、无任何信息交互与结论共享,不同路径中有效的中间推理结论、关键线索无法复用,存在严重的算力资源浪费;同时该方案仅在最终答案层面做结果聚合校验,全程不具备路径探索、分支对比、错误回溯、路径优化的能力,无法从根本上解决复杂多分支推理问题。

除此之外,算力开销、推理时延会随着采样路径数量K线性增长,高K值场景下推理成本大幅提升,不适合低时延在线业务。

Langchain Self-Consistency 极简可运行Demo

基于Langchain实现多CoT路径采样+多数投票收敛,还原自一致性核心逻辑:

尼恩提示:原文3w字以上, 超过平台限制, 此处省略 1000字,具体请参考 免费pdf。

完整版本,请参考 尼恩 免费百度网盘 免费pdf ,点赞收藏本文后,截图 找尼恩获取

2.3 ToT(Tree-of-Thought,思维树,2023 Yao)—— 推理空间树形搜索规划

提出背景

CoT的线性不可逆缺陷、Self-Consistency的路径隔离与无择优缺陷,导致两类方案均无法处理需要试探、对比、取舍、回溯、多方案择优的复杂决策类问题,无法适配真实场景中复杂、不确定、多可能性的推理任务。

为突破这一瓶颈,ToT思维树技术被正式提出,其核心革新是彻底打破传统线性推理范式,将LLM推理过程建模为马尔可夫决策过程(MDP)+ 启发式搜索算法,将抽象、不可控的问题求解空间,具象化为多层级、可观测、可调控的思维树结构,让大模型的推理从“被动单条路径推演”全面升级为“主动多路径全局择优探索”,首次实现了LLM推理过程的可控性、可回溯性、可择优性、可迭代性。

四大核心执行环节

ToT的完整推理流程由四大闭环环节组成,模拟人类复杂问题求解的试探、校验、取舍、复盘逻辑,全程可控可干预:

【1】扩展(Expansion):针对当前已有的思维节点,模型基于当前上下文生成多个候选子思路,每个子思路对应一种全新的推理方向与解题路径,实现推理分支的多样化发散,覆盖更多解题可能性。

【2】评估(Evaluation):LLM自主对所有新生候选分支、思维节点进行可行性打分与前景判别,量化每条分支的逻辑合理性、后续成功概率、问题适配度,区分优质分支、无效分支、矛盾分支。

【3】选择(Selection):基于评估分数,结合BFS广度优先搜索、DFS深度优先搜索、束搜索等经典启发式策略,智能保留高潜力分支,淘汰低价值、矛盾、无前景的无效分支,控制推理空间规模,避免算力爆炸。

【4】回溯(Backtracking):当某条推理分支推演陷入死胡同、出现逻辑矛盾、长期无法推进时,系统自动回退至上层最优父节点,放弃当前无效路径,切换备选优质分支继续探索,大幅提升复杂问题的求解成功率。

ToT完美适配24点运算、 crossword填字、复杂博弈推理、多方案商业决策、逻辑谜题等需要多路径试探择优的复杂场景,通过树形搜索机制,彻底解决了CoT与Self-Consistency无法处理多分支、可回溯推理的短板。

但ToT仍存在固有局限:树形结构为单向层级约束,信息仅能自上而下单向传递,不同子树分支之间相互隔离,无法汇总融合多分支结论,不支持发散后收敛的复杂推理模式。

Langchain ToT 极简可运行Demo(树形搜索+回溯)

基于Langchain实现简易思维树核心逻辑:分支扩展、节点评估、路径择优、无效回溯:

尼恩提示:原文3w字以上, 超过平台限制, 此处省略 1000字,具体请参考 免费pdf。

完整版本,请参考 尼恩 免费百度网盘 免费pdf ,点赞收藏本文后,截图 找尼恩获取

2.4 GoT(Graph-of-Thought,思维图,2023 Besta): 通用图结构高阶推理层规划

GoT 从图论结构维度来看,CoT是单一路径图、ToT是层级有根树,二者均为特殊受限图结构,存在严格的信息传递限制。

GoT思维图彻底解除树结构的层级单向约束,以独立思维节点为顶点、逻辑依赖关系为有向边,构建任意有向图、有向无环图甚至弱环路图的推理拓扑结构。

其最核心、独有的技术突破是新增了ToT完全不具备的思维聚合(Aggregation)算子,实现了「多分支发散推导→多节点结论合并收敛→新一轮迭代推导」的闭环推理模式,完美贴合人类复杂问题“先发散思考、再汇总收敛、最后总结结论”的思考逻辑。

核心能力与落地场景

在ToT树形结构中,所有信息仅能从父节点单向流向子节点,不同子树的推理结论相互隔离、无法互通融合,无法处理需要多源信息汇总、多路径结论融合的推理任务。

而GoT支持任意节点之间的关联、合并、迭代、复盘,能够将多条独立推理分支的中间结论聚合为全新的高阶推理节点,基于汇总后的全局信息开展新一轮推理,大幅提升复杂任务的推理完整性与准确性。

典型落地场景包括多文档综合研判、多源舆情分析、长文本全局摘要、多方案对比总结、复杂问题多维度拆解汇总等需要“发散+收敛”双向推理的高阶场景。

能力层级与落地现状

从理论表达能力层级排序:CoT ⊂ ToT ⊂ GoT,GoT拥有三类结构中最强的推理表达能力与场景适配能力,能够覆盖所有CoT、ToT可解决的问题,同时支持二者无法实现的聚合收敛推理。

但对应的代价是,GoT的节点调度、图拓扑维护、分支聚合逻辑极度复杂,算力消耗、推理时延、工程开发难度显著提升。

目前GoT整体仍以学术研究、前沿探索为主,大规模工业化落地案例较少,仅少量应用于长文本高阶研判、多源信息融合等高精度、低时延不敏感的业务场景。

Langchain GoT 简易聚合推理Demo

核心实现GoT独有能力:多分支发散推理 + 多节点结论聚合收敛:

尼恩提示:原文3w字以上, 超过平台限制, 此处省略 1000字,具体请参考 免费pdf。

完整版本,请参考 尼恩 免费百度网盘 免费pdf ,点赞收藏本文后,截图 找尼恩获取

三、执行层Agent专用规划范式

前述CoT、Self-Consistency、ToT、GoT均属于推理增强方案,核心作用是优化模型内部推理逻辑、提升问题求解准确率,但无法适配真实Agent系统的工具调用、环境交互、长流程调度、动态迭代、故障复盘等执行层需求。

因此工业界基于学术推理范式,衍生出四类适配商业化落地的工程级Agent规划架构,也是企业级Agent开发的核心主流方案。

3.1 Plan-and-Execute(规划-执行解耦架构)

核心架构拆分

该架构采用双LLM角色完全解耦的分层设计,严格拆分规划层与执行层,实现职责隔离、各司其职,是企业级长流程Agent的核心落地架构,核心分为三个闭环阶段:

【1】全局规划阶段:由专属高阶Planner规划器LLM,基于用户原始需求,全局梳理任务逻辑,一次性拆解出完整、有序、带依赖关系的步骤清单,明确每个子任务的执行条件、输入输出、前置约束、优先级顺序,生成标准化执行方案。

【2】分步执行阶段:由轻量化Executor执行器LLM,严格按照规划清单逐步骤执行,按需调用外部工具、API、数据库,获取实时环境数据与执行结果,逐步骤回填上下文。

【3】动态重规划阶段:执行过程中若遇到信息缺失、逻辑冲突、环境变更、任务异常等问题,系统触发局部重规划机制,仅修正异常环节,无需全盘推翻原有方案,兼顾灵活性与执行效率。

工程核心优势与短板

✅ 核心优势:支持模型异构部署,规划采用高精度强推理大模型,执行采用低成本轻量化模型,大幅降低整体Token成本;长时序任务可控性极强,步骤可观测、可埋点、可调试、可运维,适配企业级灰度迭代;支持子任务并行调度,完美适配报告撰写、流程编排、批量数据处理等长流程业务,LangChain、LangGraph均内置原生实现。

❌ 核心短板:前置静态规划灵活性不足,无法适配突发式、动态变化极强的任务场景,高度依赖重规划机制保障容错性。

Langchain Plan-and-Execute 演示Demo

尼恩提示:原文3w字以上, 超过平台限制, 此处省略 1000字,具体请参考 免费pdf。

完整版本,请参考 尼恩 免费百度网盘 免费pdf ,点赞收藏本文后,截图 找尼恩获取

3.2 ReAct(Reasoning+Acting,推理行动交替范式)

核心原理

ReAct是目前开源Agent最通用、最基础的落地框架,彻底打通了LLM纯文本推理与外部环境交互的壁垒。

核心运行闭环为:思考Thought → 行动Action → 观测Observation,循环迭代、边规划边执行。

模型每一轮都会基于当前上下文判断信息缺口,自主决策是否需要调用外部工具,获取实时观测结果后,再进入下一轮思考迭代,无需提前做全局静态规划。

适用场景与短板

该范式灵活性极强,适配实时问答、信息检索、工具调用、交互式任务等动态场景,是绝大多数轻量化Agent的基础架构。

短板是无全局规划约束,超长流程任务容易出现目标漂移、逻辑发散、无限循环等问题,不适合固定流程、高严谨度的长时序企业级任务。

3.3 Reflexion(反思闭环规划机制)

核心原理

Reflexion在常规「规划-执行」链路基础上,新增复盘反思+记忆迭代核心层级,构建完整的自主进化闭环:任务执行→结果有效性判定→失败根因复盘→提炼优化经验→经验存入长期记忆库→下一轮规划迭代优化。

其核心价值是赋予Agent人类级别的试错学习能力,打破单次规划、单次执行的静态局限,实现越用越精准、越迭代越稳定。

适用场景

广泛适配代码调试、反复业务办理、多轮复杂交互、定制化任务迭代等需要持续优化、试错改进的场景,是高阶自主迭代型Agent的标配核心能力。

3.4 扩展范式:LLM+P(LLM+经典符号规划器,混合规划架构)

核心原理

该跨范式混合架构,精准弥补纯LLM逻辑不严谨、约束失控的原生缺陷,结合大模型语义理解能力与传统AI符号规划的严谨性、完备性。

整体流程:

  • LLM负责自然语言理解与格式转换,将用户口语化需求转译为标准化PDDL规划语言;
  • 外部经典确定性规划器(FastDownward等)基于严格约束求解最优行动序列,保证逻辑完备、无约束溢出;最后由LLM将符号化结果翻译为自然语言输出。
适用场景

适配机器人路径规划、工业流程调度、自动化控制、强约束任务编排等需要严格逻辑保证、零容错的专业场景,是工业级高精度Agent的核心方案。

五、 LLM的 内部思维过程规划 VS 外部行动过程规划

LLM的规划能力本质分为「内部思维过程规划」和「外部行动过程规划」两个完全独立的层级 。

市面上绝大多数技术内容的核心误区,就是将两类不同层级的技术混为同类可选方案,而二者本质是「思考优化工具」与「任务执行骨架」的搭配关系,无替代关系、仅存在组合协同关系。

下面基于标准化框架,完成体系化梳理、核心洞察提炼与落地方法论升级。

5.1 两大规划核心维度精准对标

从核心目标、作用层级、交互特性、技术本质等维度,精准划清两大规划的边界,形成可落地、可口述的标准化认知:

技术层规划核心问题核心代表方法核心特征作用定位
推理结构增强(思维层)如何优化LLM内部推理路径,让思考更准确、更鲁棒?CoT、Self-Consistency、ToT、GoT纯文本闭环推理,无外部工具调用、无环境交互、无状态更新,仅优化文本生成与思考逻辑Agent的「血肉」,决定思考环节的推理质量上限
执行循环架构(行为层)如何设计Agent与外部环境的交互流程,让任务闭环更高效?ReAct、Plan-and-Execute、Reflexion、LLM+P包含思考、行动、观测、复盘完整闭环,依赖工具调用、环境反馈、状态迭代,管控外部任务流程Agent的「骨架」,定义整体任务的执行规则与控制流

核心正交关系总结:执行循环架构决定Agent「什么时候思考、什么时候行动」,搭建起整体任务运行框架;推理结构增强方法决定Agent「思考得有多严谨、多全面」,填充思考环节的核心能力。

所有高阶Agent均是「骨架+血肉」的组合产物,二者解耦独立、自由适配,是架构设计的核心基础。

5.2 第一层规划:推理层的规划演进

本层规划所有技术均聚焦优化LLM内部思维组织形式,不改变Agent与外界的交互逻辑,仅升级纯文本推理的探索能力,完整演进脉络与核心优劣如下:

  • 线性链 CoT:最基础的分步推理范式,核心是将单次高负荷推理拆解为多步线性递进推理,分摊模型推理压力。

优势是极简轻量化、零额外算力开销、普适性极强;短板是单链路不可逆、不可回溯,存在“一条道走到黑”的问题,单步推理错误会直接导致全局失效,无试错、无探索能力。

  • 多路径投票 Self-Consistency:基于CoT的容错升级方案,通过调高模型采样温度,并行生成多条独立线性推理链,最终通过多数投票收敛最优答案。

有效解决了单CoT推理的偶然性幻觉、计算失误问题,大幅提升推理鲁棒性;但核心缺陷是多条推理路径完全隔离、无信息互通,中间优质结论无法复用,算力资源浪费严重,且不具备主动试错探索能力。

  • 树形搜索 ToT:实现推理结构的非线性质变升级,彻底打破线性推理桎梏。

通过节点扩展、分支评估、择优剪枝、路径回溯四大核心能力,让LLM具备人类级别的试错思考能力,可在多分支推理场景中自主探索、择优取舍、失败回溯。

完美适配复杂决策、逻辑谜题等场景,但树形结构仅支持自上而下单向信息传递,分支间无法聚合结论。

  • 图结构推理 GoT:当前推理层规划中表达能力最强的方案,彻底打破树形结构的层级限制。

支持任意思维节点的关联、合并、迭代,实现「多分支发散推导→多节点结论收敛汇总→二次迭代推理」的完整闭环,精准建模人类“先发散、后汇总”的高阶思维,适配多维度研判、长文本全局分析等复杂场景。

本层规划核心终极洞察:

本质是LLM推理空间探索策略的持续复杂化升级。

演进路径为:单一线性路径(CoT)→多条独立统计路径(Self-Consistency)→带回溯的树形启发式搜索(ToT)→支持全局聚合的通用图搜索(GoT)。

整体呈现「推理完整性、逻辑严谨性、场景适配性持续提升,算力成本与工程复杂度指数级上涨」的梯度特征。

5.3 第二层规划:执行层的循环架构

本层规划所有技术均聚焦定义Agent外部循环的宏观控制流,不优化内部推理逻辑,仅通过迭代任务执行、环境交互、复盘学习机制,提升Agent的自主作业能力,完整演进脉络与核心优劣如下:

  • ReAct(推理-行动交替):轻量化Agent最基础的原生执行骨架,构建「思考Thought→行动Action→观测Observation」的动态交替闭环。

无需提前预设全局规划,模型根据实时上下文自主判断思考、工具调用或任务终止,极致灵活、适配短时动态交互场景。

核心短板是无全局视野,面对长时序、多步骤复杂任务,极易出现目标漂移、逻辑发散、无效循环等问题。

  • Plan-and-Execute(先规划后执行):实现「思考与行动的完全解耦」,采用模型异构分工模式,由专属Planner大模型完成全局任务拆解、步骤排序、优先级定义,再由轻量化Executor模型按规划逐步骤落地执行。

核心优势是全局可控、流程规整、可运维性强,适配固定流程的长周期企业级业务;短板是静态规划灵活性不足,无法适配动态环境变更,必须配套重规划机制弥补缺陷。

  • Reflexion(反思闭环):在常规执行循环基础上,新增事后复盘+记忆沉淀+迭代优化的进化能力,构建行业首个自主进化Agent架构。

完整闭环为「任务执行→结果校验→错误复盘→经验提炼→记忆存储→迭代优化」,让Agent能够从历史失败与经验中持续学习,越迭代越精准,是高阶智能Agent的核心标配能力。

  • LLM+P(LLM+经典符号规划器):工业级零容错混合规划架构,针对性弥补纯大模型逻辑不可控、约束松散的原生缺陷。

利用LLM完成自然语言理解、需求解析与格式转译,将非结构化口语需求转化为标准化PDDL符号规划语言,交由确定性经典规划器完成最优路径求解,最终由LLM输出可落地结果,兼顾语义灵活性与工业级逻辑严谨性。

本层规划核心终极洞察:该层规划的迭代演进,本质是Agent环境交互的控制流复杂度、自主性、适应性持续升级。

演进路径为:简单反应式动态循环(ReAct)→全局解耦式静态规划(Plan-and-Execute)→具备自主学习的反思闭环(Reflexion) ,逐步实现从“被动执行”到“主动适配”再到“自主进化”的能力跃迁。

5.4 双层规划正交协同融合方案(工业级落地标准组合)

两大规划完全正交、可自由乐高式组合,所有高阶落地架构均来自二者的精准搭配,以下为行业成熟、可直接落地的标准化协同方案,也是面试核心拔高亮点: -ReAct + CoT/ToT(轻量化动态Agent最优解):以ReAct动态交替循环为外层执行骨架,管控整体交互流程;在核心Thought思考环节嵌入推理增强方案。常规简单场景使用CoT轻量化分步推理,保障低时延、低成本;复杂决策、歧义场景临时启动ToT树形搜索,通过分支探索与回溯择优输出最优思考结果。适配智能问答、实时检索、轻量化工具调用等动态短时场景,性价比极高。

  • Plan-and-Execute + GoT(企业级长流程高阶解):传统Plan-and-Execute的线性规划清单僵化、无容错能力。这里,可以引入GoT图推理能力重构规划环节,让Planner不再输出单一固定步骤,而是通过「发散分析→收敛汇总」的逻辑,生成带分支、带容错、带优先级的弹性规划图,兼顾全局规整性与动态适配性。外层保留解耦执行的稳定性,内层通过图推理提升规划完整性,适配企业级复杂长流程业务。
  • Reflexion + Self-Consistency(自主进化Agent进阶解):优化Reflexion的复盘迭代机制,不再基于单次执行结果复盘,而是基于Self-Consistency生成的多条推理路径与执行结果,全局对比优劣、统计共性错误、提炼通用优化经验,沉淀至长期记忆。大幅提升复盘精度,避免单次样本偏差导致的无效迭代,让Agent的自主学习更高效、更普适。
  • LLM+P + CoT(工业高精度稳定解):在LLM语义解析、需求拆解、PDDL格式转译的核心环节,嵌入CoT分步推理,规避语义理解偏差、步骤拆解遗漏等问题,保障自然语言到符号规划的精准转换,从源头降低规划器求解失败概率,同时保留传统规划器的逻辑确定性,适配机器人控制、工业调度等零容错场景。

5.5 适配双层规划的标准化架构落地思维

基于双层规划分层架构,所有技术选型、组合设计、成本取舍均可依托六大核心架构思维,规避过度设计、能力不足、成本浪费等工程问题: -分层抽象思维:严格将Agent系统拆分为「内层推理结构」与「外层执行循环」两个解耦抽象层,两层独立迭代、互不干扰。可单独升级思考推理能力(CoT→ToT→GoT),也可单独迭代执行骨架(ReAct→Plan-and-Execute→Reflexion),极大提升系统模块化、可维护性与迭代效率。

  • 搜索-代价权衡思维:内层推理需权衡「探索深度与算力代价」,高精准场景优先ToT/GoT,低成本低时延场景坚守CoT;外层执行需权衡「全局最优性与动态适应性」,固定长流程选Plan-and-Execute,动态交互场景选ReAct,根据业务特性双向取舍。
  • 正交组合思维:摒弃“非此即彼”的选型思维,树立乐高式组合思维。没有最优的单一技术,只有最优的组合架构,依托两大规划的正交特性,按需搭配「执行骨架+推理能力」,是构建高性能、高适配Agent的核心关键。
  • 反馈驱动思维:所有高阶规划能力的生效核心是高质量反馈。ToT/GoT的分支择优依赖精准推理评估反馈,Reflexion的迭代进化依赖真实任务结果反馈,工程落地中优先设计完善的反馈机制,才能最大化发挥规划架构的能力。
  • 预算感知思维:清晰认知技术算力梯度:CoT < Self-Consistency < ToT < GoT,ReAct开销远低于Plan-and-Execute+Reflexion组合。落地必须结合业务时延要求、算力预算、成本阈值,选择最经济的组合方案,杜绝过度设计。
  • 渐进式演化思维:遵循从简到繁、按需迭代的落地原则。

优先以「ReAct+CoT」搭建最简MVP闭环,跑通业务流程;再根据实际瓶颈针对性升级:推理准确率不足则升级ToT/GoT,长任务失控则切换全局规划架构,缺乏迭代能力则叠加Reflexion,稳步优化、精准迭代。

5.6 面试精简口述总结

Agent规划能力的核心价值,是让大模型具备复杂任务拆解、路径决策、动态调度、迭代优化的自主能力,是区分普通Chatbot与智能Agent的核心标志。

目前主流规划方法分为推理层与 执行层 两大规划:

  • 推理层从CoT线性推理起步,通过Self-Consistency多路径投票解决单路径容错问题,再通过ToT树形搜索实现分支探索与回溯择优,最终由GoT图结构实现发散收敛的高阶推理,推理表达能力逐级递增;
  • 执行层 以ReAct为轻量化基础,通过Plan-and-Execute解耦架构适配企业长流程任务,搭配Reflexion实现自主迭代,依托LLM+P满足强约束高精度场景需求。

在实际架构落地中,一般会依托六大设计思维阶梯选型:

  • 常规低时延业务优先CoT+ReAct快速落地;
  • 多方案决策场景选用ToT提升准确率;
  • 企业级长流程业务采用Plan-and-Execute+Reflexion组合架构;
  • 坚决拒绝过度设计,实现业务效果与工程成本的最优平衡。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关新闻

  • 3步掌握Video2X:免费AI视频无损放大到4K的终极指南
  • 2026年6月最新帝舵中国官方售后客服服务地址热线网点电话 - 亨得利官方服务中心
  • Steam成就管理终极指南:如何用SAM工具快速解锁游戏成就

最新新闻

  • 云南桥梁工程质量检测靠谱机构 本地专业哪家更值得选,广告牌工程质量检测/学校房屋安全检测,工程质量检测源头公司哪家好 - 品牌推荐师
  • 终极GKD订阅规则库架构指南:实现自动化订阅管理的完整解决方案
  • Origami Simulator:如何用GPU并行计算重新定义折纸模拟的边界
  • 深圳市企业技术改造项目扶持计划申请与受理的工作程序
  • AI Agent四层技术栈:从大模型底座到工具调用的工业级落地
  • 终极指南:使用OpenCore Legacy Patcher让老款Mac免费升级最新macOS系统

日新闻

  • 2026速览惠州叛逆青少年学校前十大排名名单出炉 - 武汉中职最新信息发布
  • 2026上饶白蚁消杀哪家好?15年本土2大权威白蚁防治公司推荐(金盾虫控/青蚁卫士) - 我叫一
  • 天龙八部单机版终极数据管理工具:5个技巧快速掌握游戏数据编辑

周新闻

  • Visual C++运行库修复终极指南:5分钟快速解决Windows软件启动错误
  • 手把手教你构建统计局地区经济数据爬虫:从环境搭建到数据持久化全指南
  • 2026多Agent深度解析:用AI团队替代单一模型,四种架构实战落地

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号