当前位置：首页 > news >正文

超越Prompt：大模型应用优化的核心是上下文工程

news 2026/6/10 13:02:52

1. 项目概述重新审视提示工程的本质最近在跟几个做AI应用落地的朋友聊天发现一个挺有意思的现象大家一提到大模型应用优化第一反应就是去“调Prompt”。好像Prompt写好了一切问题就迎刃而解了。这让我想起自己早期踩过的坑——曾经花了整整一周像雕琢艺术品一样打磨一个分类任务的Prompt从措辞到格式从少样本示例到思维链试了无数个版本准确率却始终卡在85%上下再也上不去了。直到后来我把注意力从那一小段文本上移开开始审视整个系统的上下文Context构建方式问题才豁然开朗效果也直接飙到了95%以上。这个项目或者说这个思考我想探讨的核心就是“Context Engineering”上下文工程。它的核心观点是在你与大模型尤其是对话式大模型的交互中你精心编写的那段“提示”Prompt本身往往是最小、最不关键的问题。真正决定成败的是你如何构建、管理和优化模型所能“看到”的整个信息环境——也就是上下文。这就像你让一个专家帮你分析一份报告你递给他报告时附上的那张便签Prompt固然重要但报告本身的内容Context、你之前跟他讨论过的相关背景历史对话、甚至你递报告时的场景系统设定共同构成了他做出判断的“上下文”。只盯着便签怎么写而忽略了报告的质量和之前的共识无疑是舍本逐末。这篇文章适合所有正在或计划将大模型集成到产品、工作流中的开发者、产品经理和技术决策者。如果你已经过了“用Prompt简单对话”的新手阶段开始为效果瓶颈、稳定性或成本问题头疼那么这里讨论的Context Engineering思路或许能帮你打开一扇新的大门。我们将不再局限于“如何写出更好的Prompt”而是深入探讨如何系统性地设计整个交互的信息架构。2. 核心思路拆解为什么Prompt只是冰山一角要理解为什么Prompt是“最小的问题”我们需要先拆解一次完整的大模型API调用以Chat Completion为例背后到底包含了哪些信息组成部分。通常我们发送给模型的是一个由多条消息Messages按顺序组成的列表。这个列表就是模型做出下一次回复所依据的完整上下文。2.1 上下文的结构化分解一次典型的请求上下文通常包含以下层次系统指令System Instruction这是上下文的“宪法”或“角色设定”。它通常是一条来自system角色的消息在对话最开头用于定义模型的整体行为准则、身份、回复格式和边界。例如“你是一个严谨的代码助手只回答与技术相关的问题用中文回复代码部分用Markdown代码块包裹。”历史对话Conversation History这是user和assistant角色消息的交替序列记录了到目前为止的完整交流过程。它提供了话题的延续性、用户的偏好信息以及问题演变的脉络。当前用户查询Current User Query即本次调用中最新的那条user消息。我们通常狭义上所说的“Prompt”指的就是这部分。检索到的外部知识Retrieved Knowledge在RAG检索增强生成等架构中我们会从向量数据库或其他知识源中检索出相关文档片段并以user或system消息的形式插入到上下文的特定位置例如放在最新查询之前作为模型回答的依据。中间过程与工具调用Intermediate Steps Tool Calls在智能体Agent或复杂推理场景中模型可能会进行思考Chain-of-Thought、调用外部工具如计算器、搜索API并接收结果。这些过程也会被格式化后加入上下文供模型进行后续推理。注意模型对上下文的理解是“全量”的。它并没有一个独立的“Prompt处理模块”。模型是基于你提供的整个消息列表来预测下一个token通常是assistant的回复。因此上下文中的任何部分——无论是第一条系统指令还是中间某条不起眼的用户消息——都会对最终输出产生影响其影响力取决于模型内部的注意力机制。2.2 Prompt的局限性理解了上下文的结构我们再来看Prompt当前用户查询的局限性信息占比小在长对话或多轮复杂任务中当前查询的token数可能只占整个上下文窗口的很小一部分。模型的主要“注意力”资源分配给了历史对话和系统指令。严重依赖前置语境一个模糊的Prompt如“总结一下”其含义完全由之前的对话历史决定。没有良好的历史上下文再精确的Prompt也无济于事。无法纠正系统性偏差如果系统指令设定了错误的角色或者历史对话中积累了错误信息仅靠修改当前Prompt很难彻底扭转模型的输出倾向。这就像试图用一句客气话Prompt去纠正一个已经被灌输了错误观念错误Context的人效果有限。成本与性能的瓶颈反复在冗长的历史上下文后面附加复杂的Prompt会迅速消耗宝贵的上下文窗口Token限额增加API成本并可能因为上下文过长导致模型对关键信息的注意力下降“中间丢失”现象。因此Context Engineering的核心思想是从优化“点”单个Prompt转向优化“场”整个上下文环境。我们的目标是通过精心设计系统指令、高效管理历史对话、智能注入外部知识来塑造一个能让模型最稳定、最准确、最高效发挥能力的“信息场”。在这个场中Prompt可以变得非常简单、直接甚至模板化。3. 上下文工程的核心策略与实践既然上下文如此重要我们应该如何系统地对其进行工程化处理呢以下是我从实际项目中总结出的几个核心策略。3.1 系统指令的精细化设计系统指令是上下文的基石。它不应该只是“你是一个有帮助的助手”这样一句话。一个优秀的系统指令是预防模型“胡言乱语”的第一道防线也是引导其专业性的最强工具。设计原则角色具体化不要只说“专家”要说“你是一位拥有10年经验的资深全栈工程师精通React和Node.js”。任务边界清晰化明确告知模型什么该做什么不该做。例如“你只处理与Web开发相关的问题。如果用户询问其他领域礼貌地表示无法回答。”输出格式结构化强制要求模型以特定格式输出便于后端解析。例如“你的回答必须是一个JSON对象包含answer回答内容和confidence置信度0-1两个字段。”思维过程可控化对于复杂任务可以指令模型“逐步思考”并将其思考过程以特定标记如thinking.../thinking输出这既能提升答案质量也方便我们进行调试和审核。风格与语气定制化定义回复的语言、风格正式/随意、长度等。实操示例一个用于代码审查的Agent系统指令可能是这样的你是一个名为“CodeGuard”的自动化代码审查助手。你的核心职责是分析用户提供的代码片段找出潜在的错误、安全漏洞、性能问题和不符合编码规范的地方。 - 首先你必须逐行分析代码。 - 然后将问题分类为[BUG]、[SECURITY]、[PERFORMANCE]、[STYLE]。 - 针对每个问题提供1) 问题类别2) 具体行号或代码段3) 详细描述4) 修改建议。 - 最终输出必须是一个清晰的Markdown列表。 - 如果代码看起来没有问题请输出“未发现明显问题”。 - 不要对代码的功能意图进行假设性评价。这样的指令远比一个简单的“请审查这段代码”的Prompt能带来更稳定、更可用的输出。3.2 对话历史的智能管理历史对话是宝贵的资产也是沉重的包袱。管理不善它会变成噪声源和成本黑洞。关键策略摘要压缩Summarization对于超长对话不要无脑地传递全部历史。可以在后台启动一个“摘要Agent”定期例如每10轮对话后或按需对之前的对话历史进行总结生成一段精炼的摘要文本。在后续对话中用一条system消息如“之前的对话摘要...”替代冗长的原始历史从而大幅节省Token并聚焦核心信息。选择性记忆Selective Memory并非所有历史都同等重要。可以设计规则自动过滤掉问候语“你好”、确认语“好的”、以及被后续对话修正或覆盖的旧信息。只保留对当前任务有持续影响的关键决策、用户偏好和事实陈述。基于向量检索的记忆Vector-based Memory这是更高级的策略。将历史对话中的关键信息如用户提到的产品需求、技术栈选择、达成的共识等提取出来转化为向量存入一个专为本次会话服务的微型向量数据库。当模型需要“回忆”某个相关点时通过检索来动态获取最相关的历史片段而不是传递全部历史。这实现了对超长记忆的高效、精准利用。回合数控制与对话重启为对话设置最大回合数限制。达到上限后可以主动引导用户开启一个新会话或者由系统自动执行摘要并开启新上下文。这能有效防止上下文污染和性能衰减。实操心得在实现一个客服聊天机器人时我们最初保留了全部历史结果发现当对话超过30轮后机器人偶尔会“精神错乱”重复回答很久以前的问题。引入“每5轮对话自动生成一次摘要”的机制后不仅API成本下降了约40%对话的长期一致性也得到了显著改善。摘要的生成本身也可以由一个大模型来完成Prompt可以是“请用不超过100字总结用户和助手在上述对话中讨论的核心问题和已达成的解决方案。”3.3 外部知识的动态注入RAG进阶RAG是Context Engineering的典型应用。但很多初级的RAG实现只是简单地将检索到的文档拼接到用户问题前这远远不够。进阶技巧上下文窗口的“黄金位置”研究表明模型对上下文开头和结尾的信息关注度最高。因此最重要的指令系统指令要放在开头而最相关的检索知识或当前问题应尽量靠近结尾在模型生成回复之前。避免将关键信息埋在冗长上下文的中间。知识重写与提示压缩直接检索到的文本可能冗长或格式杂乱。可以先用一个小模型或规则引擎对检索结果进行清洗、重写和压缩使其更贴合问题并以更清晰的格式如问答对、要点列表插入上下文。这能极大提升知识的“利用率”。元数据与来源标注在注入知识时同时注入其来源如文件名、章节号和置信度分数。可以指令模型在回答中引用来源这不仅能增加可信度也便于用户追溯和验证。多路检索与融合不要只依赖一种检索方式。可以同时进行关键词检索BM25和向量检索然后将结果去重、排序、融合后再注入上下文。这能兼顾精确匹配和语义相似度提高召回率。避坑指南我曾遇到一个案例检索到的知识片段包含一句“该产品将于明年Q1停产”。由于这段文本被直接注入且处于上下文的显著位置导致模型在回答任何关于该产品未来功能的问题时都会强调“即将停产”即使用户的当前问题与此无关。这就是“知识污染”。解决方案是引入一个“相关性过滤”层对检索到的片段进行二次判断只有与当前查询高度相关的片段才被注入。或者在系统指令中明确要求模型“仅使用与问题直接相关的文档信息”。3.4 工具调用与中间过程的上下文化对于智能体Agent工作流模型调用工具函数的过程和结果也需要被妥善地纳入上下文管理。最佳实践标准化工具调用描述在system指令中清晰定义每个可用工具的名称、功能、输入参数格式和输出示例。这本身就是一种强大的上下文。将工具结果格式化后反馈当模型决定调用工具后后台执行工具然后将工具执行的结果以一条结构化的user或system消息例如“[工具名]的执行结果...”追加到上下文里再让模型基于这个“新增的上下文”继续生成。这个过程是循环往复的。保持上下文的连贯性整个Agent的思考、行动、观察循环构成了一个不断增长的上下文。必须确保这个上下文中模型的每次思考、每次工具调用和结果都是逻辑连贯、格式清晰的。这样模型才能进行有效的多步推理。4. 工程化实现与架构考量将上述策略落地需要我们在应用架构层面进行思考。4.1 上下文管理器的设计一个健壮的应用应该有一个独立的“上下文管理器”Context Manager模块其职责包括组装请求根据会话ID、当前查询从数据库或缓存中获取系统指令、处理后的历史对话、检索到的知识等组装成符合API格式的消息列表。执行摘要与压缩在后台异步执行对话摘要任务更新会话的“摘要快照”。管理Token消耗实时计算上下文Token数在接近模型上限如128K时触发摘要压缩或警告。持久化存储将会话的完整或摘要化历史存储起来供下次使用。这个管理器是Context Engineering的核心枢纽。4.2 成本与性能的权衡更丰富的上下文通常意味着更好的效果但也意味着更高的Token成本和更长的推理延迟。需要在效果、成本和速度之间找到平衡点。效果评估建立A/B测试框架对比不同上下文策略如全历史 vs. 摘要历史在关键业务指标如任务完成率、用户满意度上的差异。成本监控监控每个会话的平均输入/输出Token数分析成本大头。通常输入Token即上下文是成本的主要构成部分。延迟优化摘要压缩、知识检索等操作可以是异步的。对于实时性要求高的场景可以考虑使用更小、更快的模型来处理上下文预处理任务。4.3 安全与可控性上下文是一把双刃剑也可能被用户恶意利用例如通过精心构造的历史对话进行“越狱”攻击。输入净化与审查对所有注入上下文的内容用户输入、检索知识进行必要的安全过滤和审查防止注入恶意指令。系统指令加固在系统指令中明确且强硬地设定安全边界并放置在上下文最开头以对抗可能的后续“诱导”。上下文审计记录关键会话的完整上下文便于在出现问题时进行回溯分析理解模型“犯错”的原因。5. 常见问题与实战调试技巧在实际操作中你可能会遇到以下典型问题。这里分享一些排查思路和技巧。5.1 模型“遗忘”系统指令或早期信息现象在长对话中模型似乎忘记了最初设定的角色或规则行为发生漂移。排查与解决检查位置确保最重要的系统指令在每次请求的上下文列表中都处于第一条消息的位置。有些框架在组装多轮对话时可能会遗漏或覆盖系统消息。对抗中间丢失对于超长上下文尝试在对话中途以system角色的身份温和地“重申”或“提醒”核心规则。例如在第20轮对话后插入一条消息“提醒请继续以代码审查助手的身份进行回答专注于技术问题。”摘要中包含指令如果你使用摘要压缩确保生成的对话摘要中包含了关键的规则和角色信息。升级模型某些模型对长上下文的处理能力更强。如果问题持续考虑切换到上下文窗口更大或在长文档理解上表现更好的模型。5.2 检索的知识未被有效利用现象明明注入了相关的知识片段但模型的回答似乎没有参考它或者参考错了。排查与解决检查注入格式知识是以什么角色、什么格式注入的通常以user身份说“根据以下资料...”然后附上知识比直接混在历史对话中更有效。也可以尝试用system身份注入强调其权威性。优化知识相关性检查你的检索系统。可能检索到的片段只是“语义上”接近但并非直接答案。提高检索的精度或者对检索结果进行重排序。增强指令在系统指令或当前查询中明确要求模型“必须基于提供的资料回答”并“引用资料中的具体内容”。甚至可以要求它先复述资料要点再给出结论。可视化注意力如果可能一些开源模型或平台提供注意力权重可视化工具。虽然对于商用API不可行但你可以用开源模型在类似上下文上进行测试观察模型到底关注了上下文的哪些部分。5.3 上下文Token消耗过快成本激增现象API账单增长迅猛发现每个请求的输入Token都非常高。排查与解决分析上下文构成打印或记录几个典型请求的完整上下文分析是哪部分历史、知识、指令占用了大部分Token。实施摘要压缩这是最有效的降本手段。从对效果影响最小的“闲聊回合”开始压缩。精简知识注入只注入最核心、最相关的知识片段而不是整篇文档。设定一个Token上限。优化提示本身检查你的Prompt是否过于啰嗦。使用更简洁、直接的表达。考虑模型降级对于不需要超长上下文或极高推理能力的环节是否可以使用更便宜、上下文窗口更小的模型如处理摘要生成5.4 多轮对话中逻辑不一致现象模型在后续对话中做出了与之前承诺或陈述相矛盾的判断。排查与解决强化历史管理确保摘要能够准确捕捉之前的决策和事实。摘要模型的能力至关重要。引入显式状态管理对于关键决策点如用户选择了方案A不要完全依赖模型的自然语言记忆。可以在应用后台维护一个结构化的“会话状态”对象如{“selected_plan”: “A”, “user_requirements”: [“fast”, “cheap”]}并在需要时将这个状态以结构化文本如JSON的形式作为system消息插入到上下文中。这比从自然语言历史中推断要可靠得多。设计确认环节在关键步骤让模型主动总结当前状态并向用户确认例如“根据我们之前的讨论您选择了X方案原因是Y。我将基于此进行下一步。对吗” 用户的确认回复会成为上下文中最新的强信号。Context Engineering不是一个一蹴而就的开关而是一个需要持续观察、实验和调优的系统工程。它要求我们将与大模型的交互视为一个动态的、有状态的、需要精心维护的信息环境。当你开始用这种视角去构建应用时你会发现那个曾经让你绞尽脑汁的Prompt真的可以变得非常简单、稳定甚至标准化。因为所有复杂的逻辑、丰富的知识、严谨的规则都已经在你为模型构建的那个强大、清晰的上下文“场”中定义好了。这时Prompt只需要轻轻一点就能触发预期中的完美反应。

查看全文

http://www.rkmt.cn/news/1406908.html