零基础学AI人工智能:8.1 智能体平台开发之提示词工程
大家好,我是深耕人工智能与智能体开发领域的开发者。从本篇开始,我们正式进入智能体平台开发系列内容的学习。在大模型应用与智能体开发的完整体系中,提示词工程是最基础、也是最核心的入门技能,它直接决定了大模型输出的准确性、稳定性与边界可控性,是后续构建 RAG 知识库、工具调用型智能体的底层基础。
本篇作为系列第一篇,我们将从大模型基础认知出发,系统讲解提示词工程的核心原则、主流进阶技术、ReAct 思考范式与优化方法。
一、大模型与智能体基础认知
1.1大模型的发展历程
大语言模型(LLM)指参数规模达到 10B 以上的语言模型,人工智能的核心三要素为数据、算法与算力,三者共同支撑了大模型的能力边界。其发展历程可分为三个核心阶段:
- 萌芽期(1950 年 - 1995 年):1950 年图灵测试提出,标志着人工智能概念正式诞生;1956 年达特茅斯会议正式确立人工智能学科。受限于硬件算力与数据规模,该阶段技术发展缓慢,核心以基础理论探索为主。
- 沉淀期(1995 年 - 2020 年):算力与数据规模快速增长,各类 AI 技术持续迭代。2005 年 LeNet 问世,成为首个 AI 模型;随后 GAN、BERT 等技术相继出现,分别实现了生成能力与语言理解能力的突破,完成了技术积累,但未出现规模化落地应用。
- 发展期(2020 年至今):以 GPT3 为代表的大语言模型开启大模型时代,预训练技术成熟,大模型的语言能力实现突破性提升,各类应用快速落地,成为人工智能领域的核心发展方向。
通常来说,参数量级越大,模型的综合能力越强,可处理的任务复杂度也越高。
1.2大模型的核心局限:幻觉问题
大模型并非完美的信息系统,其最核心的局限是幻觉问题,分为两类:
- 事实性幻觉:模型输出内容偏离客观事实,给出错误的信息与结论,本质是 “一本正经地胡说八道”。
- 忠实性幻觉:模型无法精准理解用户意图,输出内容偏离用户需求,出现答非所问、脱离上下文的情况。
幻觉产生的核心原因是指令模糊、模型推理能力不足,而提示词工程正是解决幻觉问题、约束模型输出的核心手段。
1.3大模型四大开发技术方向
围绕大模型的应用落地,行业形成了四类主流开发技术,各自解决不同维度的问题:
- 提示词工程:通过精妙的指令设计约束模型行为,让模型按照指定规则与要求输出,属于低成本、快速落地的优化方案。
- RAG 检索增强生成:为大模型外挂知识库,模型回答问题前先检索知识库中的参考资料,基于资料生成答案,解决特定领域知识不足的问题。
- 模型微调:通过领域数据对模型进行二次训练,将专业知识注入模型内部,让模型掌握特定领域的能力,属于深度定制方案。
- Agent 智能体:在大模型的基础上增加规则能力、工具调用能力与自主执行能力,相当于为大模型装上 “手脚”,让它不仅能思考,还能主动调用工具完成任务。
其中提示词工程是所有开发技术的基础,RAG、智能体的底层交互都依赖规范的提示词设计。
二、提示词工程核心认知
2.1提示词的定义与本质
提示词(Prompt)是用户与大模型交互的信息载体,但提示词并不等同于用户的原生提问。
在实际的应用开发中,最终提交给大模型的完整提示词,通常包含两部分内容:
- 90% 左右的内容,是程序自动拼接的参考资料、示例数据、工具调用结果、规则约束等结构化信息;
- 10% 左右的内容,是用户输入的原生问题。
简单来说,提示词是包含用户提问在内的完整模型输入信息集合,而非单纯的一句提问。
2.2提示词工程的核心目标
提示词工程的核心目标,是通过设计规范的提示词结构,约束大模型回答的边界与格式,降低幻觉出现的概率,提升输出结果的稳定性、准确性与可用性,让大模型的输出可预期、可复用。
三、提示词工程的五大核心原则
设计高质量提示词,需要遵循五大核心原则,覆盖从简单任务到复杂任务的全场景:
3.1给出清晰明确的指令
这是提示词设计的基础原则,核心是让模型精准理解任务要求,避免歧义。具体可通过五个维度优化:
- 提供详细的任务描述:尽可能完整地说明背景、目标、约束条件,信息越充分,模型输出的匹配度越高。现有大模型的自然语言处理能力成熟,详细的描述不会造成理解干扰,反而能提升结果精度。
- 设定模型角色:为模型指定明确的身份与职责,让模型在角色范围内输出内容,限定回复的边界与风格。
- 使用特定符号分隔内容:用三引号、标签、括号等符号将待处理文本、参考资料与指令区分开,帮助模型精准识别不同模块的作用,同时避免指令被待处理内容干扰。
- 提供参考示例:通过少量示例让模型直观了解输出的格式、风格与规则,比纯文字描述更高效。
- 限定输出的数量与范围:明确指定输出的字符数、段落数、要点数量,约束输出的篇幅与结构。
3.2提供文本参考依据
针对专业领域、事实性强的任务,可以在提示词中附带参考资料,要求模型基于参考资料生成答案。这也是 RAG 技术的核心逻辑:用户提问后,先从知识库检索相关资料,再将资料与问题一同提交给模型,让模型基于资料作答,从根源减少事实性幻觉。
3.3将复杂任务拆分为简单子任务
对于流程复杂、需求多元的大型任务,不要一次性提交给模型,而是将任务拆解为多个明确的子任务,设计分步执行的提示词,让模型按步骤依次完成,提升每一步的准确率,最终保障整体任务的完成质量。
3.4给模型留出思考时间
对于推理类、计算类的复杂问题,可以在提示词中要求模型分步推导、逐步验证,先展示思考过程再给出最终结论。这种方式相当于强制模型按照指定的逻辑流程推理,能显著提升复杂问题的正确率,也是思维链技术的底层逻辑。
3.5借助外部工具补充能力
大模型本身只有信息处理能力,无法直接获取实时信息、执行实际操作。此时可以在提示词中设计工具调用规则,让模型自主判断是否需要调用工具、调用哪款工具,由程序执行工具后将结果返回给模型,模型再基于工具结果生成最终答案。这是智能体开发的核心基础,也是 ReAct 范式的核心思路。
四、主流提示词进阶技术
基于五大核心原则,行业沉淀出五类成熟的提示词技术,适配不同难度的任务场景:
4.1零样本提示(Zero-Shot)
零样本提示是最基础的提示词形式,即直接向模型提出问题,不提供任何示例,完全依赖模型自身的预训练知识生成答案。它适用于简单、通用的问答场景,实现成本最低,但对复杂任务的处理效果有限。
4.2少样本提示(Few-Shot)
少样本提示是在提示词中加入少量参考示例,让模型参照示例的格式、规则与风格完成任务。相比零样本提示,它能大幅提升输出格式的稳定性,也能让模型快速掌握特定的任务规则,是日常开发中最常用的基础优化技术。通常 3-5 个示例即可达到较好的效果,同时需要注意覆盖典型场景与边界情况。
4.3思维链(Chain-of-Thought,CoT)
思维链技术的核心是引导模型在输出答案的同时,输出完整的推理思考过程,一步步推导得到最终结论。它能显著提升数学题、逻辑题等复杂推理任务的准确率,也方便后续排查模型的推理错误。思维链有两种实现方式:
- 零样本思维链:直接在指令中要求模型分步思考;
- 少样本思维链:在示例中附带完整的推理过程,让模型参照示例的思考逻辑作答。
4.4链式提示(Prompt Chaining)
链式提示的核心是将一个复杂的大任务,拆解为多个前后衔接的子任务,每个子任务对应一套提示词;前一个提示词的输出结果,作为后一个提示词的输入内容,依次执行直到完成全部任务。它适合固定多步骤的流程化任务,比如长文本摘要、论文改写等,可以将每一步的输出质量控制在稳定范围内。
4.5自我一致性(Self-Consistency)
自我一致性的核心思路是让模型通过多种不同的推理路径解答同一个问题,得到多个答案后进行投票,选择出现次数最多的答案作为最终结果。它可以有效降低单一推理路径的偶然性错误,进一步提升复杂推理问题的准确率。
五、ReAct 思考范式:智能体的核心思维框架
ReAct(Reasoning and Acting,推理与行动)是智能体开发的核心思考范式,它将思考、行动、观察形成闭环,让模型可以自主调用外部工具解决问题,突破大模型自身的信息边界。
5.1 ReAct的三大核心要素
- 思考(Thought):模型分析当前问题,判断需要获取什么信息、执行什么操作;
- 行动(Action):模型输出需要调用的工具名称与对应的输入参数;
- 观察(Observation):工具执行完成后,将结果反馈给模型,模型基于结果继续判断。
5.2 ReAct的执行流程
ReAct 的执行是一个循环迭代的过程:
- 用户提出问题;
- 模型思考当前缺少的信息,决定调用对应工具;
- 程序执行工具,得到工具返回的结果;
- 模型观察工具结果,判断信息是否充足;
- 若信息不足,则继续思考并调用下一个工具;
- 若信息充足,则生成最终答案,结束流程。
5.3 ReAct的适用场景
ReAct 范式主要解决需要外部信息、需要实际操作的复杂问题,典型场景包括:
- 实时信息查询类任务,如天气查询、节假日查询、实时数据查询;
- 需要专业工具计算的任务,如数学计算、代码执行、数据统计;
- 多步骤动态决策的任务,如行程规划、问题排查、政务办理等。
5.4 ReAct与其他技术的关系
- 与链式提示的区别:链式提示是将任务拆解为固定的子步骤,流程固定;ReAct 是动态调整步骤,模型根据每一步的结果自主决策下一步行动,灵活性更强。
- 与自我一致性的区别:自我一致性是通过多条推理路径投票,提升推理准确率;ReAct 是通过 “推理 + 行动” 的闭环,补充模型的外部信息与行动能力,从根源减少错误。
- 与普通提示词的区别:普通提示词只能利用模型自身的知识,ReAct 可以连接外部工具,突破模型的知识与能力边界。
六、提示词迭代优化的通用方法
提示词无法一次设计到位,需要经过多轮测试与优化,通用迭代流程分为四步:
- 初版编写:基于任务目标,套用对应技术模板,写出基础版提示词,明确任务要求与输出规范。
- 效果评估:选取 3-5 个不同的测试输入,运行提示词,检查输出是否符合格式、内容是否准确、是否存在幻觉。
- 针对性修改:根据测试问题调整提示词:
- 若输出不完整,补充细节要求与约束规则;
- 若格式混乱,明确输出的结构规范,补充示例;
- 若出现幻觉,增加参考资料或改用思维链、ReAct 范式。
- 重复迭代:循环执行测试与修改,直到输出稳定符合预期。
