阿里二面：说说LLM Agent 6大 plan 范式： CoT、ToT、GoT、ReAct、Plan-and-Execute、Reflexion？怎么做的选型？小伙伴懵了-尧图网站建设

📅 发布时间：2026/6/22 14:00:30

一、题干核心拆解与规划能力底层定义

本题是大模型Agent方向面试的核心高频深度题，重点考察求职者LLM推理范式演进认知、Agent规划模块系统性架构理解、工程落地权衡思维、业务场景适配能力。

题目给出了 CoT、ToT、GoT、ReAct、Plan-and-Execute、Reflexion 等 6大规划范式关键词，但核心并非考察名词释义背诵，而是要求求职者建立完整、闭环的技术认知体系，能够打通学术原理与工业落地的壁垒。

面试官核心考察三个核心维度：

第一，是否能够完整梳理线性链→多路径投票→树形搜索→图结构推理的全链路技术演进逻辑，精准定位每一代技术迭代解决的前置痛点、优化方向与固有缺陷；
第二，是否能够清晰区分Agent内部思维过程规划与Agent外部行动过程规划两层规划的边界、底层差异与适用场景；
第三，是否具备成熟的工程架构思维，能够从模型复杂度、算力开销、推理准确率、业务适配性四个核心维度，完成不同规划方案的科学选型与取舍决策，而非盲目堆砌高阶技术。

1.1 规划在 Agent 体系中的核心定位

工业界标准的自主智能Agent，核心遵循闭环四大核心能力架构：感知（Perception）→规划（Planning）→记忆（Memory）→行动（Action），四大模块各司其职、协同闭环，支撑Agent从被动交互走向自主决策、自主执行、自主迭代。

其中，规划模块是整个Agent系统的核心大脑与决策中枢，也是破除行业认知误区、厘清LLM技术体系的关键核心。

市面上绝大多数技术文档与面试回答存在根本性认知混淆：将LLM各类规划相关技术笼统归为同类方案，简单并列选型、混淆替代关系。

但宏观思维来看，LLM的规划能力本质分为「内部思维过程规划」和「外部行动过程规划」两个完全独立、正交互补的层级，不存在替代关系，而是存在「思考推导过程+任务执行过程」的组合协同关系，这也是整套Agent规划体系的底层核心基石。

规划模块承接感知模块的环境与用户信息、依托记忆模块的历史经验，通过双层规划协同输出可落地的行动策略，这也是传统对话Chatbot与高阶智能Agent最核心的本质分水岭，直接决定智能体复杂任务处理能力上限与商业化落地价值。

1.1.1 传统Chatbot与LLM Agent的核心能力差异（基于双层规划体系）

传统通用Chatbot：仅具备原生模型的基础直觉推理能力，无结构化内部思维规划、无外部行动序列规划。核心为被动应答模式，依赖单次上下文匹配与预训练知识，仅能完成点对点简单问答、文本生成、基础分类等纯文本单轮任务。不具备复杂问题分层拆解、多步骤逻辑调度、推理回溯纠错、动态任务调整能力，无法联动外部工具、无法处理长时序、多约束、多分支的复杂闭环任务，属于纯被动式智能交互工具。

具备双层规划能力的LLM Agent：同时拥有内层思维规划+外层行动规划的完整主动式决策能力，是目标导向的高阶智能体系。针对用户模糊、抽象、复杂的全局目标，可通过内层推理结构完成逻辑拆解、路径择优、推理校验，再通过外层执行架构完成行动排序、异常修正、闭环迭代，最终将非结构化自然语言需求，转化为有序、可校验、可迭代、可落地的原子动作序列，完美适配工具调用、长流程业务、多约束决策等复杂商业化场景。

1.1.2 双层规划能力的认知科学底层原理

从认知科学与大模型底层原理来看，LLM双层规划体系，本质是完整复刻人类双系统认知机制（System1直觉快思考 / System2审慎慢思考），且精准对应两大技术层面：

原生大模型单次文本生成属于System1直觉快思考，依赖概率采样快速输出结果，无结构化约束、无步骤校验，极易出现逻辑跳跃、推理断层、幻觉累积、局部最优等问题，这也是传统Chatbot能力受限的核心根源。
而LLM的双层规划技术，是对System1直觉快思考+System2审慎慢思考的完整建模

且分层对应、各司其职：

内层思维过程规划（推理结构层面）：通过CoT、ToT、GoT等结构化推理范式，强制模型完成分步拆解、多路径探索、发散收敛、推理校验，优化内部思考逻辑，解决「想不清、想不准、容错低」的问题，是对人类审慎思考过程的纯文本建模；
外层行动序列规划（执行循环层面）：通过ReAct、Plan-and-Execute、Reflexion等范式，规范「思考-行动-观测-复盘」的外部交互闭环，解决「不会做、做不稳、不能迭代」的问题，是人类落地执行、复盘优化行为逻辑的工程化实现。

两大层级协同发力，从根源上解决了原生大模型长推理幻觉、逻辑断裂、无闭环、无迭代的原生缺陷，构成了高阶LLM Agent的完整规划能力体系。

二、推理层规划主线：链→多链投票→树→图完整演进（学术主流范式）

LLM推理层规划的学术演进严格遵循结构复杂度递增、推理能力递增、场景覆盖递增、算力开销递增、可控性递增的核心规律，从最基础的线性单链推理，逐步迭代至多路径容错、树形搜索择优、图结构发散收敛。

每一次技术迭代都精准解决上一代方案的核心痛点，补齐推理短板，同时也会带来算力、复杂度、工程落地成本的提升，形成一套完整的递进式技术迭代体系，适配从简单问答到复杂多源推理的全场景需求。

2.1 CoT（Chain-of-Thought，思维链，2022 Google）—— 线性推理层规划基石

核心原理

在CoT技术诞生之前，行业通用的标准提示词范式为直接问答范式，强制大模型在单次前向传播过程中，跳过中间推导环节、直接输出最终答案，全程无任何可解释的中间推理步骤。

这种极简模式在简单问答、短文本分类、基础语义匹配等低难度任务中可以正常使用，但在多步数学计算、多层嵌套逻辑推理、复杂问题拆解、因果推导等场景中，极易出现逻辑跳跃、计算错误、推理断层、结论幻觉等问题，核心根源是模型单次承载的推理负荷过高，无法一次性完成多维度、多步骤的复杂逻辑运算。

CoT的核心创新与突破性价值，就是强制模型显式输出所有中间推理节点，将一次性高负荷复杂推理拆解为多步串行递进的子推理过程，让每一步推导的中间结论，都作为下一步推理的前置依据与输入基础，大幅降低单次推理的计算与逻辑负荷，充分激活大模型的 emergent reasoning（涌现推理）能力，让原本无法解决的多步复杂推理任务实现落地。

CoT在工业落地中包含两种主流形态，适配不同的业务场景与落地成本需求，覆盖通用场景与垂直定制场景：

【1】Few-shot CoT（小样本思维链）：在Prompt模板中内置3~8组高质量标准样本，每组样本严格遵循「原始问题+完整分步推理过程+最终标准答案」的格式，让模型通过模仿学习，精准复刻垂直场景下的分步推理逻辑范式，适配金融、教育、工业等各类垂直领域的定制化推理场景，推理精度更高、逻辑性更强。

【2】Zero-shot CoT（零样本思维链）：极简通用型落地方案，无需配置任何样本示例、无需定制Prompt模板，仅需在原始问题末尾添加通用触发指令Let's think step by step，即可唤醒大模型自带的分步推理能力，适配绝大多数通用推理场景，工程改造成本极低、落地效率极高，是目前工业化落地的基线标配方案。

数学形式与固有缺陷

该线性技术架构存在无法规避的致命短板：单链路不可逆、不可回溯、单点错误全局传导。

在整个推理链条中，只要任意一个中间步骤出现计算错误、逻辑偏差、幻觉输出、信息遗漏，后续所有推导步骤都会基于错误结论继续推演，误差持续累积，最终导致整体答案完全失效。

同时，单一线性链路完全无法适配多解法、多决策分支、需要试探对比、择优取舍的复杂问题，例如24点运算、逻辑谜题、多方案决策、最优路径选择等场景，推理上限极低，仅能满足单逻辑路径的基础推理需求。

适用场景、算力成本

CoT整体算力开销极低，仅比传统直接问答模式增加少量推理过程Token输出，工程改造成本几乎可以忽略不计，兼容性极强，适配所有大模型基座。

主要适配轻量化推理场景，包括短步骤数学计算、简单常识逻辑问答、低时延在线交互问答、单路径固定逻辑的业务判断、基础文本推理等场景。

核心缺点是容错率差、复杂任务适配能力弱、无纠错回溯机制，仅能满足基础推理需求，无法支撑高阶复杂Agent任务。

Langchain CoT 极简可运行Demo

基于Langchain原生Prompt模板+大模型调用，实现标准Zero-shot CoT推理，适配所有LLM基座，代码极简、可直接落地：

尼恩提示：原文3w字以上，超过平台限制，此处省略 1000字，具体请参考免费pdf。

完整版本，请参考尼恩免费百度网盘免费pdf ，点赞收藏本文后，截图找尼恩获取

2.2 Self-Consistency（自一致性 SC-CoT）多路径投票，优化 CoT 缺陷

核心原理

针对原生CoT单路径容错率低、单次推理随机性强、容易出现偶然出错、无容错机制的核心痛点，行业基于CoT迭代提出了Self-Consistency自一致性优化方案。

其核心设计思路是并行多路径采样+统计投票收敛，通过提升推理的多样性、覆盖更多推理路径，从统计层面规避单路径推理的偶然性误差，大幅提升推理结果的稳定性与准确率。

具体落地方式为：调高模型生成的temperature温度参数，增强模型推理的随机性与多样性，针对同一个输入问题，批量生成K KK条相互独立的CoT推理链，每条推理链独立完成分步推导、互不干扰，并输出专属答案，最终通过多数投票原则，筛选出全局出现频次最高的答案作为最终推理结果。

优缺点

✅ 核心优势：无需改动原有CoT推理核心架构，无需复杂工程改造，仅通过多路径采样与投票聚合机制，即可低成本大幅提升数学推理、常识推理、逻辑判断题型的准确率，有效规避单路径推理的偶然错误、局部幻觉问题，大幅提升推理鲁棒性，落地简单、效果直观、通用性极强。

❌ 核心缺陷：多条推理路径完全相互隔离，独立推演、无任何信息交互与结论共享，不同路径中有效的中间推理结论、关键线索无法复用，存在严重的算力资源浪费；同时该方案仅在最终答案层面做结果聚合校验，全程不具备路径探索、分支对比、错误回溯、路径优化的能力，无法从根本上解决复杂多分支推理问题。

除此之外，算力开销、推理时延会随着采样路径数量K线性增长，高K值场景下推理成本大幅提升，不适合低时延在线业务。

Langchain Self-Consistency 极简可运行Demo

基于Langchain实现多CoT路径采样+多数投票收敛，还原自一致性核心逻辑：

尼恩提示：原文3w字以上，超过平台限制，此处省略 1000字，具体请参考免费pdf。

完整版本，请参考尼恩免费百度网盘免费pdf ，点赞收藏本文后，截图找尼恩获取

2.3 ToT（Tree-of-Thought，思维树，2023 Yao）—— 推理空间树形搜索规划

提出背景

CoT的线性不可逆缺陷、Self-Consistency的路径隔离与无择优缺陷，导致两类方案均无法处理需要试探、对比、取舍、回溯、多方案择优的复杂决策类问题，无法适配真实场景中复杂、不确定、多可能性的推理任务。

为突破这一瓶颈，ToT思维树技术被正式提出，其核心革新是彻底打破传统线性推理范式，将LLM推理过程建模为马尔可夫决策过程（MDP）+ 启发式搜索算法，将抽象、不可控的问题求解空间，具象化为多层级、可观测、可调控的思维树结构，让大模型的推理从“被动单条路径推演”全面升级为“主动多路径全局择优探索”，首次实现了LLM推理过程的可控性、可回溯性、可择优性、可迭代性。

四大核心执行环节

ToT的完整推理流程由四大闭环环节组成，模拟人类复杂问题求解的试探、校验、取舍、复盘逻辑，全程可控可干预：

【1】扩展（Expansion）：针对当前已有的思维节点，模型基于当前上下文生成多个候选子思路，每个子思路对应一种全新的推理方向与解题路径，实现推理分支的多样化发散，覆盖更多解题可能性。

【2】评估（Evaluation）：LLM自主对所有新生候选分支、思维节点进行可行性打分与前景判别，量化每条分支的逻辑合理性、后续成功概率、问题适配度，区分优质分支、无效分支、矛盾分支。

【3】选择（Selection）：基于评估分数，结合BFS广度优先搜索、DFS深度优先搜索、束搜索等经典启发式策略，智能保留高潜力分支，淘汰低价值、矛盾、无前景的无效分支，控制推理空间规模，避免算力爆炸。

【4】回溯（Backtracking）：当某条推理分支推演陷入死胡同、出现逻辑矛盾、长期无法推进时，系统自动回退至上层最优父节点，放弃当前无效路径，切换备选优质分支继续探索，大幅提升复杂问题的求解成功率。

ToT完美适配24点运算、 crossword填字、复杂博弈推理、多方案商业决策、逻辑谜题等需要多路径试探择优的复杂场景，通过树形搜索机制，彻底解决了CoT与Self-Consistency无法处理多分支、可回溯推理的短板。

但ToT仍存在固有局限：树形结构为单向层级约束，信息仅能自上而下单向传递，不同子树分支之间相互隔离，无法汇总融合多分支结论，不支持发散后收敛的复杂推理模式。

Langchain ToT 极简可运行Demo（树形搜索+回溯）

基于Langchain实现简易思维树核心逻辑：分支扩展、节点评估、路径择优、无效回溯：

尼恩提示：原文3w字以上，超过平台限制，此处省略 1000字，具体请参考免费pdf。

完整版本，请参考尼恩免费百度网盘免费pdf ，点赞收藏本文后，截图找尼恩获取

2.4 GoT（Graph-of-Thought，思维图，2023 Besta）：通用图结构高阶推理层规划

GoT 从图论结构维度来看，CoT是单一路径图、ToT是层级有根树，二者均为特殊受限图结构，存在严格的信息传递限制。

GoT思维图彻底解除树结构的层级单向约束，以独立思维节点为顶点、逻辑依赖关系为有向边，构建任意有向图、有向无环图甚至弱环路图的推理拓扑结构。

其最核心、独有的技术突破是新增了ToT完全不具备的思维聚合（Aggregation）算子，实现了「多分支发散推导→多节点结论合并收敛→新一轮迭代推导」的闭环推理模式，完美贴合人类复杂问题“先发散思考、再汇总收敛、最后总结结论”的思考逻辑。

核心能力与落地场景

在ToT树形结构中，所有信息仅能从父节点单向流向子节点，不同子树的推理结论相互隔离、无法互通融合，无法处理需要多源信息汇总、多路径结论融合的推理任务。

而GoT支持任意节点之间的关联、合并、迭代、复盘，能够将多条独立推理分支的中间结论聚合为全新的高阶推理节点，基于汇总后的全局信息开展新一轮推理，大幅提升复杂任务的推理完整性与准确性。

典型落地场景包括多文档综合研判、多源舆情分析、长文本全局摘要、多方案对比总结、复杂问题多维度拆解汇总等需要“发散+收敛”双向推理的高阶场景。

能力层级与落地现状

从理论表达能力层级排序：CoT ⊂ ToT ⊂ GoT，GoT拥有三类结构中最强的推理表达能力与场景适配能力，能够覆盖所有CoT、ToT可解决的问题，同时支持二者无法实现的聚合收敛推理。

但对应的代价是，GoT的节点调度、图拓扑维护、分支聚合逻辑极度复杂，算力消耗、推理时延、工程开发难度显著提升。

目前GoT整体仍以学术研究、前沿探索为主，大规模工业化落地案例较少，仅少量应用于长文本高阶研判、多源信息融合等高精度、低时延不敏感的业务场景。

Langchain GoT 简易聚合推理Demo

核心实现GoT独有能力：多分支发散推理 + 多节点结论聚合收敛：

尼恩提示：原文3w字以上，超过平台限制，此处省略 1000字，具体请参考免费pdf。

完整版本，请参考尼恩免费百度网盘免费pdf ，点赞收藏本文后，截图找尼恩获取

三、执行层Agent专用规划范式

前述CoT、Self-Consistency、ToT、GoT均属于推理增强方案，核心作用是优化模型内部推理逻辑、提升问题求解准确率，但无法适配真实Agent系统的工具调用、环境交互、长流程调度、动态迭代、故障复盘等执行层需求。

因此工业界基于学术推理范式，衍生出四类适配商业化落地的工程级Agent规划架构，也是企业级Agent开发的核心主流方案。

3.1 Plan-and-Execute（规划-执行解耦架构）

核心架构拆分

该架构采用双LLM角色完全解耦的分层设计，严格拆分规划层与执行层，实现职责隔离、各司其职，是企业级长流程Agent的核心落地架构，核心分为三个闭环阶段：

【1】全局规划阶段：由专属高阶Planner规划器LLM，基于用户原始需求，全局梳理任务逻辑，一次性拆解出完整、有序、带依赖关系的步骤清单，明确每个子任务的执行条件、输入输出、前置约束、优先级顺序，生成标准化执行方案。

【2】分步执行阶段：由轻量化Executor执行器LLM，严格按照规划清单逐步骤执行，按需调用外部工具、API、数据库，获取实时环境数据与执行结果，逐步骤回填上下文。

【3】动态重规划阶段：执行过程中若遇到信息缺失、逻辑冲突、环境变更、任务异常等问题，系统触发局部重规划机制，仅修正异常环节，无需全盘推翻原有方案，兼顾灵活性与执行效率。

工程核心优势与短板

✅ 核心优势：支持模型异构部署，规划采用高精度强推理大模型，执行采用低成本轻量化模型，大幅降低整体Token成本；长时序任务可控性极强，步骤可观测、可埋点、可调试、可运维，适配企业级灰度迭代；支持子任务并行调度，完美适配报告撰写、流程编排、批量数据处理等长流程业务，LangChain、LangGraph均内置原生实现。

❌ 核心短板：前置静态规划灵活性不足，无法适配突发式、动态变化极强的任务场景，高度依赖重规划机制保障容错性。

Langchain Plan-and-Execute 演示Demo

尼恩提示：原文3w字以上，超过平台限制，此处省略 1000字，具体请参考免费pdf。

完整版本，请参考尼恩免费百度网盘免费pdf ，点赞收藏本文后，截图找尼恩获取

3.2 ReAct（Reasoning+Acting，推理行动交替范式）

核心原理

ReAct是目前开源Agent最通用、最基础的落地框架，彻底打通了LLM纯文本推理与外部环境交互的壁垒。

核心运行闭环为：思考Thought → 行动Action → 观测Observation，循环迭代、边规划边执行。

模型每一轮都会基于当前上下文判断信息缺口，自主决策是否需要调用外部工具，获取实时观测结果后，再进入下一轮思考迭代，无需提前做全局静态规划。

适用场景与短板

该范式灵活性极强，适配实时问答、信息检索、工具调用、交互式任务等动态场景，是绝大多数轻量化Agent的基础架构。

短板是无全局规划约束，超长流程任务容易出现目标漂移、逻辑发散、无限循环等问题，不适合固定流程、高严谨度的长时序企业级任务。

3.3 Reflexion（反思闭环规划机制）

核心原理

Reflexion在常规「规划-执行」链路基础上，新增复盘反思+记忆迭代核心层级，构建完整的自主进化闭环：任务执行→结果有效性判定→失败根因复盘→提炼优化经验→经验存入长期记忆库→下一轮规划迭代优化。

其核心价值是赋予Agent人类级别的试错学习能力，打破单次规划、单次执行的静态局限，实现越用越精准、越迭代越稳定。

适用场景

广泛适配代码调试、反复业务办理、多轮复杂交互、定制化任务迭代等需要持续优化、试错改进的场景，是高阶自主迭代型Agent的标配核心能力。

3.4 扩展范式：LLM+P（LLM+经典符号规划器，混合规划架构）

核心原理

该跨范式混合架构，精准弥补纯LLM逻辑不严谨、约束失控的原生缺陷，结合大模型语义理解能力与传统AI符号规划的严谨性、完备性。

整体流程：

LLM负责自然语言理解与格式转换，将用户口语化需求转译为标准化PDDL规划语言；
外部经典确定性规划器（FastDownward等）基于严格约束求解最优行动序列，保证逻辑完备、无约束溢出；最后由LLM将符号化结果翻译为自然语言输出。

适用场景

适配机器人路径规划、工业流程调度、自动化控制、强约束任务编排等需要严格逻辑保证、零容错的专业场景，是工业级高精度Agent的核心方案。

五、 LLM的内部思维过程规划 VS 外部行动过程规划

LLM的规划能力本质分为「内部思维过程规划」和「外部行动过程规划」两个完全独立的层级。

市面上绝大多数技术内容的核心误区，就是将两类不同层级的技术混为同类可选方案，而二者本质是「思考优化工具」与「任务执行骨架」的搭配关系，无替代关系、仅存在组合协同关系。

下面基于标准化框架，完成体系化梳理、核心洞察提炼与落地方法论升级。

5.1 两大规划核心维度精准对标

从核心目标、作用层级、交互特性、技术本质等维度，精准划清两大规划的边界，形成可落地、可口述的标准化认知：

技术层规划	核心问题	核心代表方法	核心特征	作用定位
推理结构增强（思维层）	如何优化LLM内部推理路径，让思考更准确、更鲁棒？	CoT、Self-Consistency、ToT、GoT	纯文本闭环推理，无外部工具调用、无环境交互、无状态更新，仅优化文本生成与思考逻辑	Agent的「血肉」，决定思考环节的推理质量上限
执行循环架构（行为层）	如何设计Agent与外部环境的交互流程，让任务闭环更高效？	ReAct、Plan-and-Execute、Reflexion、LLM+P	包含思考、行动、观测、复盘完整闭环，依赖工具调用、环境反馈、状态迭代，管控外部任务流程	Agent的「骨架」，定义整体任务的执行规则与控制流

核心正交关系总结：执行循环架构决定Agent「什么时候思考、什么时候行动」，搭建起整体任务运行框架；推理结构增强方法决定Agent「思考得有多严谨、多全面」，填充思考环节的核心能力。

所有高阶Agent均是「骨架+血肉」的组合产物，二者解耦独立、自由适配，是架构设计的核心基础。

5.2 第一层规划：推理层的规划演进

本层规划所有技术均聚焦优化LLM内部思维组织形式，不改变Agent与外界的交互逻辑，仅升级纯文本推理的探索能力，完整演进脉络与核心优劣如下：

线性链 CoT：最基础的分步推理范式，核心是将单次高负荷推理拆解为多步线性递进推理，分摊模型推理压力。

优势是极简轻量化、零额外算力开销、普适性极强；短板是单链路不可逆、不可回溯，存在“一条道走到黑”的问题，单步推理错误会直接导致全局失效，无试错、无探索能力。

多路径投票 Self-Consistency：基于CoT的容错升级方案，通过调高模型采样温度，并行生成多条独立线性推理链，最终通过多数投票收敛最优答案。

有效解决了单CoT推理的偶然性幻觉、计算失误问题，大幅提升推理鲁棒性；但核心缺陷是多条推理路径完全隔离、无信息互通，中间优质结论无法复用，算力资源浪费严重，且不具备主动试错探索能力。

树形搜索 ToT：实现推理结构的非线性质变升级，彻底打破线性推理桎梏。

通过节点扩展、分支评估、择优剪枝、路径回溯四大核心能力，让LLM具备人类级别的试错思考能力，可在多分支推理场景中自主探索、择优取舍、失败回溯。

完美适配复杂决策、逻辑谜题等场景，但树形结构仅支持自上而下单向信息传递，分支间无法聚合结论。

图结构推理 GoT：当前推理层规划中表达能力最强的方案，彻底打破树形结构的层级限制。

支持任意思维节点的关联、合并、迭代，实现「多分支发散推导→多节点结论收敛汇总→二次迭代推理」的完整闭环，精准建模人类“先发散、后汇总”的高阶思维，适配多维度研判、长文本全局分析等复杂场景。

本层规划核心终极洞察：

本质是LLM推理空间探索策略的持续复杂化升级。

演进路径为：单一线性路径（CoT）→多条独立统计路径（Self-Consistency）→带回溯的树形启发式搜索（ToT）→支持全局聚合的通用图搜索（GoT）。

整体呈现「推理完整性、逻辑严谨性、场景适配性持续提升，算力成本与工程复杂度指数级上涨」的梯度特征。

5.3 第二层规划：执行层的循环架构

本层规划所有技术均聚焦定义Agent外部循环的宏观控制流，不优化内部推理逻辑，仅通过迭代任务执行、环境交互、复盘学习机制，提升Agent的自主作业能力，完整演进脉络与核心优劣如下：

ReAct（推理-行动交替）：轻量化Agent最基础的原生执行骨架，构建「思考Thought→行动Action→观测Observation」的动态交替闭环。

无需提前预设全局规划，模型根据实时上下文自主判断思考、工具调用或任务终止，极致灵活、适配短时动态交互场景。

核心短板是无全局视野，面对长时序、多步骤复杂任务，极易出现目标漂移、逻辑发散、无效循环等问题。

Plan-and-Execute（先规划后执行）：实现「思考与行动的完全解耦」，采用模型异构分工模式，由专属Planner大模型完成全局任务拆解、步骤排序、优先级定义，再由轻量化Executor模型按规划逐步骤落地执行。

核心优势是全局可控、流程规整、可运维性强，适配固定流程的长周期企业级业务；短板是静态规划灵活性不足，无法适配动态环境变更，必须配套重规划机制弥补缺陷。

Reflexion（反思闭环）：在常规执行循环基础上，新增事后复盘+记忆沉淀+迭代优化的进化能力，构建行业首个自主进化Agent架构。

完整闭环为「任务执行→结果校验→错误复盘→经验提炼→记忆存储→迭代优化」，让Agent能够从历史失败与经验中持续学习，越迭代越精准，是高阶智能Agent的核心标配能力。

LLM+P（LLM+经典符号规划器）：工业级零容错混合规划架构，针对性弥补纯大模型逻辑不可控、约束松散的原生缺陷。

利用LLM完成自然语言理解、需求解析与格式转译，将非结构化口语需求转化为标准化PDDL符号规划语言，交由确定性经典规划器完成最优路径求解，最终由LLM输出可落地结果，兼顾语义灵活性与工业级逻辑严谨性。

本层规划核心终极洞察：该层规划的迭代演进，本质是Agent环境交互的控制流复杂度、自主性、适应性持续升级。

演进路径为：简单反应式动态循环（ReAct）→全局解耦式静态规划（Plan-and-Execute）→具备自主学习的反思闭环（Reflexion），逐步实现从“被动执行”到“主动适配”再到“自主进化”的能力跃迁。

5.4 双层规划正交协同融合方案（工业级落地标准组合）

两大规划完全正交、可自由乐高式组合，所有高阶落地架构均来自二者的精准搭配，以下为行业成熟、可直接落地的标准化协同方案，也是面试核心拔高亮点： -ReAct + CoT/ToT（轻量化动态Agent最优解）：以ReAct动态交替循环为外层执行骨架，管控整体交互流程；在核心Thought思考环节嵌入推理增强方案。常规简单场景使用CoT轻量化分步推理，保障低时延、低成本；复杂决策、歧义场景临时启动ToT树形搜索，通过分支探索与回溯择优输出最优思考结果。适配智能问答、实时检索、轻量化工具调用等动态短时场景，性价比极高。

Plan-and-Execute + GoT（企业级长流程高阶解）：传统Plan-and-Execute的线性规划清单僵化、无容错能力。这里，可以引入GoT图推理能力重构规划环节，让Planner不再输出单一固定步骤，而是通过「发散分析→收敛汇总」的逻辑，生成带分支、带容错、带优先级的弹性规划图，兼顾全局规整性与动态适配性。外层保留解耦执行的稳定性，内层通过图推理提升规划完整性，适配企业级复杂长流程业务。
Reflexion + Self-Consistency（自主进化Agent进阶解）：优化Reflexion的复盘迭代机制，不再基于单次执行结果复盘，而是基于Self-Consistency生成的多条推理路径与执行结果，全局对比优劣、统计共性错误、提炼通用优化经验，沉淀至长期记忆。大幅提升复盘精度，避免单次样本偏差导致的无效迭代，让Agent的自主学习更高效、更普适。
LLM+P + CoT（工业高精度稳定解）：在LLM语义解析、需求拆解、PDDL格式转译的核心环节，嵌入CoT分步推理，规避语义理解偏差、步骤拆解遗漏等问题，保障自然语言到符号规划的精准转换，从源头降低规划器求解失败概率，同时保留传统规划器的逻辑确定性，适配机器人控制、工业调度等零容错场景。

5.5 适配双层规划的标准化架构落地思维

基于双层规划分层架构，所有技术选型、组合设计、成本取舍均可依托六大核心架构思维，规避过度设计、能力不足、成本浪费等工程问题： -分层抽象思维：严格将Agent系统拆分为「内层推理结构」与「外层执行循环」两个解耦抽象层，两层独立迭代、互不干扰。可单独升级思考推理能力（CoT→ToT→GoT），也可单独迭代执行骨架（ReAct→Plan-and-Execute→Reflexion），极大提升系统模块化、可维护性与迭代效率。

搜索-代价权衡思维：内层推理需权衡「探索深度与算力代价」，高精准场景优先ToT/GoT，低成本低时延场景坚守CoT；外层执行需权衡「全局最优性与动态适应性」，固定长流程选Plan-and-Execute，动态交互场景选ReAct，根据业务特性双向取舍。
正交组合思维：摒弃“非此即彼”的选型思维，树立乐高式组合思维。没有最优的单一技术，只有最优的组合架构，依托两大规划的正交特性，按需搭配「执行骨架+推理能力」，是构建高性能、高适配Agent的核心关键。
反馈驱动思维：所有高阶规划能力的生效核心是高质量反馈。ToT/GoT的分支择优依赖精准推理评估反馈，Reflexion的迭代进化依赖真实任务结果反馈，工程落地中优先设计完善的反馈机制，才能最大化发挥规划架构的能力。
预算感知思维：清晰认知技术算力梯度：CoT < Self-Consistency < ToT < GoT，ReAct开销远低于Plan-and-Execute+Reflexion组合。落地必须结合业务时延要求、算力预算、成本阈值，选择最经济的组合方案，杜绝过度设计。
渐进式演化思维：遵循从简到繁、按需迭代的落地原则。

优先以「ReAct+CoT」搭建最简MVP闭环，跑通业务流程；再根据实际瓶颈针对性升级：推理准确率不足则升级ToT/GoT，长任务失控则切换全局规划架构，缺乏迭代能力则叠加Reflexion，稳步优化、精准迭代。

5.6 面试精简口述总结

Agent规划能力的核心价值，是让大模型具备复杂任务拆解、路径决策、动态调度、迭代优化的自主能力，是区分普通Chatbot与智能Agent的核心标志。

目前主流规划方法分为推理层与执行层两大规划：

推理层从CoT线性推理起步，通过Self-Consistency多路径投票解决单路径容错问题，再通过ToT树形搜索实现分支探索与回溯择优，最终由GoT图结构实现发散收敛的高阶推理，推理表达能力逐级递增；
执行层以ReAct为轻量化基础，通过Plan-and-Execute解耦架构适配企业长流程任务，搭配Reflexion实现自主迭代，依托LLM+P满足强约束高精度场景需求。

在实际架构落地中，一般会依托六大设计思维阶梯选型：

常规低时延业务优先CoT+ReAct快速落地；
多方案决策场景选用ToT提升准确率；
企业级长流程业务采用Plan-and-Execute+Reflexion组合架构；
坚决拒绝过度设计，实现业务效果与工程成本的最优平衡。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

阿里二面：说说LLM Agent 6大 plan 范式： CoT、ToT、GoT、ReAct、Plan-and-Execute、Reflexion？怎么做的选型？ 小伙伴懵了

一、题干核心拆解与规划能力底层定义

1.1 规划在 Agent 体系中的核心定位

1.1.1 传统Chatbot与LLM Agent的核心能力差异（基于双层规划体系）

1.1.2 双层规划能力的认知科学底层原理

二、推理层规划主线：链→多链投票→树→图完整演进（学术主流范式）

2.1 CoT（Chain-of-Thought，思维链，2022 Google）—— 线性推理层规划基石

核心原理

数学形式与固有缺陷

适用场景、算力成本

Langchain CoT 极简可运行Demo

2.2 Self-Consistency（自一致性 SC-CoT） 多路径投票，优化 CoT 缺陷

核心原理

优缺点

Langchain Self-Consistency 极简可运行Demo

2.3 ToT（Tree-of-Thought，思维树，2023 Yao）—— 推理空间树形搜索规划

提出背景

四大核心执行环节

Langchain ToT 极简可运行Demo（树形搜索+回溯）

2.4 GoT（Graph-of-Thought，思维图，2023 Besta）： 通用图结构高阶推理层规划

核心能力与落地场景

能力层级与落地现状

Langchain GoT 简易聚合推理Demo

三、执行层Agent专用规划范式

3.1 Plan-and-Execute（规划-执行解耦架构）

核心架构拆分

工程核心优势与短板

Langchain Plan-and-Execute 演示Demo

3.2 ReAct（Reasoning+Acting，推理行动交替范式）

核心原理

适用场景与短板

3.3 Reflexion（反思闭环规划机制）

核心原理

适用场景

3.4 扩展范式：LLM+P（LLM+经典符号规划器，混合规划架构）

核心原理

适用场景

五、 LLM的 内部思维过程规划 VS 外部行动过程规划

5.1 两大规划核心维度精准对标

5.2 第一层规划：推理层的规划演进

5.3 第二层规划：执行层的循环架构

5.4 双层规划正交协同融合方案（工业级落地标准组合）

5.5 适配双层规划的标准化架构落地思维

5.6 面试精简口述总结

学AI大模型的正确顺序，千万不要搞错了

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

阿里二面：说说LLM Agent 6大 plan 范式： CoT、ToT、GoT、ReAct、Plan-and-Execute、Reflexion？怎么做的选型？小伙伴懵了

2.2 Self-Consistency（自一致性 SC-CoT）多路径投票，优化 CoT 缺陷

2.4 GoT（Graph-of-Thought，思维图，2023 Besta）：通用图结构高阶推理层规划

五、 LLM的内部思维过程规划 VS 外部行动过程规划

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】