RAG失败根因与修复：语义对齐、知识切分与动态上下文蒸馏-尧图网站建设

📅 发布时间：2026/6/30 22:01:06

1. 项目概述：这不是技术故障，而是认知偏差

“Why Most RAG Pipelines Fail (And How to Fix Them)”——这个标题一出来，我就在好几个技术群看到有人截图转发，配文是“又一个讲RAG失败的，但这次好像真戳中了”。说实话，我去年亲手搭过7套RAG系统，从给律所做合同条款检索，到给医疗器械公司做FDA合规文档问答，再到给高校图书馆做古籍元数据增强查询，每一套上线前都信心满满，结果有4套在真实用户手里撑不过两周就退回“人工兜底模式”。不是模型不强，不是向量库不行，更不是代码写错了。问题出在我们所有人——包括我自己——都把RAG当成了“检索+生成”的流水线，却忘了它本质是一场跨模态语义协商：用户用自然语言提问，系统要先理解意图、再定位知识边界、再对齐上下文粒度、最后生成可验证的回答。这中间任何一环的“语义滑坡”，都会让整个管道崩塌。核心关键词——RAG失败、语义对齐、检索质量、提示工程、知识切分——不是抽象概念，而是每天在日志里跳出来的错误码：retrieved_chunk_mismatch_intent、context_overflow_truncation_loss、hallucinated_citation。这篇文章不讲大道理，只讲我在生产环境里拆开327个失败case后，总结出的5类根因、对应修复路径，以及每个环节该用什么指标卡住质量红线。适合正在调试RAG、被老板追问“为什么准确率上不去”的工程师；也适合刚学完LangChain教程、一上真实数据就懵圈的初学者。你不需要懂Transformer结构，但得愿意对着自己的检索结果逐条比对——这才是RAG调优的起点。

2. RAG失败的五大根因与底层逻辑

2.1 根因一：检索阶段的“语义失焦”——不是没找到，是找偏了

绝大多数人以为RAG失败是因为“没检索到相关内容”，实测发现恰恰相反：83%的失败case里，向量数据库返回了5条相关度>0.7的chunk，但其中4条和用户问题根本不在同一语义层。比如用户问：“2023年Q3华东区销售返点政策是否允许经销商叠加使用物流补贴？”，系统返回的chunk里有3条讲“返点计算公式”，1条讲“物流补贴申请流程”，1条讲“2022年政策修订说明”。表面看都相关，但问题核心是“政策叠加规则”——这个细粒度意图，在embedding向量空间里被平均掉了。

为什么？因为主流embedding模型（如text-embedding-ada-002）在训练时优化的是“文档级相似性”，而非“意图-条款级对齐”。它把“返点”“补贴”“华东区”“2023年”全压进同一个向量，丢失了逻辑关系。我做过对比实验：用相同query在BM25和vector search下分别检索，BM25返回的top3结果里，有2条明确包含“叠加”“同时适用”“不可并用”等关键词；而vector search的top3里，只有1条隐含此意。这不是模型差，是任务错配——用文档相似性模型解决逻辑关系判定问题。

修复逻辑很简单：强制解耦检索意图。我把一次RAG query拆成三路并行检索：

路径A：原始query向量化，走dense retrieval（保留全局语义）
路径B：用规则提取query中的实体+动作（如“华东区”“销售返点”“叠加使用”），构建稀疏向量，走BM25（抓关键词锚点）
路径C：将query重写为布尔表达式（如(region:华东) AND (policy_type:返点) AND (condition:叠加)），走Elasticsearch DSL（锁定结构化约束）

三路结果按权重融合（dense:BM25:DSL = 4:3:3），再做rerank。实测在金融合规场景下，意图匹配准确率从61%提升到89%。关键不是加模型，而是承认：单一向量无法承载复合意图，必须用多模态检索策略补足语义维度。

2.2 根因二：知识切分的“粒度幻觉”——切得越细，错得越狠

很多人迷信“chunk size越小越好”，认为512 token能精准匹配细节。我见过最极端的案例：某客户把PDF合同切成128-token的chunk，结果用户问“违约金如何计算”，系统返回3条chunk——第一条是“违约金=未付款×0.05%”，第二条是“每日计息”，第三条是“起算日为验收后30日”。单独看每条都对，但拼起来就是错的：实际条款是“违约金=未付款×0.05%/日，自验收后30日起算”。切分破坏了条件依赖关系。

问题根源在于：文本切分是空间操作，而法律/技术文档的逻辑是拓扑结构。一个条款可能横跨页眉、正文、脚注、附件表格。用固定窗口切分，等于把电路板按厘米切割，再指望每块都能通电。

我的解决方案是“语义连贯性切分”（Semantic Coherence Chunking）：

先用NLP识别文档结构：标题层级（H1/H2）、列表项（ol/ul）、表格边界、引用标记（如“参见第3.2条”）
以“最小完整语义单元”为切分基准：
- 单句不拆（即使超512token）
- 列表项整体保留（哪怕含子列表）
- 表格独立成chunk（带表头）
- 引用关系显式标注（如chunk元数据存refers_to: section_3.2）
对超长单元做“逻辑断点”处理：在“因此”“综上”“但下列情形除外”等逻辑连接词后切分，并在chunk末尾添加continues_from: [chunk_id]

在医疗器械说明书测试中，这种切分使“操作步骤+警告+禁忌症”的关联准确率从44%升至92%。记住：chunk不是存储单位，是推理原子。它的边界必须由语义逻辑定义，而非token计数器。

2.3 根因三：上下文注入的“信息污染”——塞得越多，可信越低

常见做法是把top-k检索结果全塞进prompt，美其名曰“提供充分背景”。我分析过219个LLM生成失败样本，发现当注入chunk数>3时，幻觉率呈指数上升：k=1时幻觉率12%，k=3时28%，k=5时57%。原因很直接：LLM的注意力机制会平均化所有输入信息。当5条chunk里有3条说“支持iOS15+”，1条说“需macOS12.4”，1条说“Android端暂未适配”，模型大概率输出“支持iOS15及macOS12.4以上系统”，把“Android未适配”这个关键否定信息过滤掉了。

更隐蔽的问题是“上下文噪声”：chunk里大量存在与当前问题无关的修饰语、法律套话、版本声明。比如用户问“如何重置管理员密码”，chunk里却混着“本协议最终解释权归甲方所有”“2023年修订版”等干扰项。这些文本虽不冲突，但占用LLM有限的上下文窗口，挤压了真正需要推理的空间。

我的修复方案叫“动态上下文蒸馏”（Dynamic Context Distillation）：

第一步：用轻量级分类器（如DistilBERT微调）对每个chunk打分，维度包括：
intent_match（与query意图匹配度）
fact_density（每100token含多少可验证事实）
negation_presence（是否含“不”“未”“禁止”等关键否定词）
第二步：按加权分排序，但只选前2个chunk，且强制要求：若最高分chunk含否定词，则第二名必须是正向陈述（避免矛盾抵消）
第三步：对入选chunk做“事实蒸馏”——用规则抽取主谓宾三元组（如“重置密码→需→管理员权限”），丢弃所有修饰性从句

在SaaS产品文档场景，该方案使答案准确率稳定在94%±2%，且生成长度减少37%。教训很痛：LLM不是搜索引擎，它需要精炼的“证据链”，而非冗余的“资料堆”。

2.4 根因四：提示工程的“责任转嫁”——把推理难题甩给LLM

典型错误提示词：“请根据以下资料回答问题，要求准确、专业、简洁。” 这等于让LLM自己判断：哪些资料相关？如何处理矛盾？要不要质疑资料可靠性？我在日志里看到太多次LLM在矛盾信息前“和稀泥”：当chunk A说“保修期12个月”，chunk B说“核心部件保修24个月”，模型输出“保修期为12-24个月”。这不是能力问题，是提示词没给LLM划清责任边界。

RAG的本质是“人类设定规则，LLM执行推理”。提示词必须明确三点：

决策权限：哪些问题必须查资料（如“具体数值”“生效日期”），哪些可凭常识（如“鼠标是输入设备”）
矛盾处理协议：当资料冲突时，优先采用最新版本、更高权威来源、更具体描述
不确定性声明：当资料不足或矛盾无法解决时，必须输出“根据现有资料无法确定，建议查阅XX文档第X章”

我设计的标准RAG提示模板包含四个强制区块：

[ROLE] 你是一名严谨的技术文档分析师，只回答基于所提供资料的客观事实 [CONSTRAINTS] - 若资料未提及某信息，回答“资料未说明” - 若资料间存在冲突，按“发布时间新 > 来源权威高 > 描述更具体”排序采纳 - 禁止补充资料外的推测、举例或解释 [CONTEXT] {蒸馏后的chunk} [QUERY] {用户问题} [OUTPUT_FORMAT] 直接给出答案，不加解释。若无法确定，严格按“资料未说明”或“资料冲突，建议查阅...”格式输出

在银行风控规则问答中，该模板使“虚构答案”归零，用户投诉率下降76%。提示词不是咒语，是给LLM签的岗位说明书。

2.5 根因五：评估体系的“指标幻觉”——用召回率掩盖真相

团队最爱报的指标是“检索召回率@5”——top5里有没有正确答案。我见过召回率92%的系统，线上准确率仅38%。因为召回率只管“有没有”，不管“用不用”。用户问“如何申请出口退税”，系统召回了《出口退税管理办法》全文（chunk1）、《申报流程图》（chunk2）、《常见问题Q&A》（chunk3）……但LLM在生成时，只用了chunk3里的“联系主管税务机关”，完全忽略chunk1里“需提交海关出口报关单原件”这个硬性条件。

真正的瓶颈在检索-生成协同评估。我建立了一套三级漏斗指标：

指标层级	计算方式	健康阈值	诊断价值
L1 检索层	Recall@5（正确chunk在top5内）	≥85%	判断知识库覆盖度
L2 对齐层	Context Relevance Score（人工标注：top3 chunk中与query强相关的比例）	≥70%	判断语义对齐质量
L3 生成层	Answer Faithfulness Rate（答案中每个事实点均可追溯至某chunk）	≥90%	判断RAG管道整体有效性

当L1高但L2低，说明embedding模型需要微调；当L2高但L3低，问题一定在提示词或上下文注入逻辑。这套指标让我在2天内定位出某医疗问答系统的瓶颈：L1=89%，L2=41%，根源是临床指南PDF的页眉页脚被切进chunk，污染了语义。改用PDF解析器剥离元数据后，L2升至78%。

3. 实操修复：从诊断到上线的七步工作流

3.1 步骤一：构建失败案例库——别信日志，要信用户原话

所有修复必须始于真实失败样本。我拒绝用合成数据或A/B测试日志，因为它们过滤掉了最关键的信号：用户的困惑。我的采集方法是：

在前端加“答案不准？”按钮，点击后弹出3个必填项：
① 原始问题（自动捕获）
② 你期望的答案要点（用户手写，如“要告诉我需要哪些材料”）
③ 当前答案哪里错了（下拉选项：答非所问/信息过时/遗漏关键点/自相矛盾/无法验证）
后台自动关联：检索的top5 chunk、LLM生成log、prompt模板版本

运行3周后，我拿到142个高质量case。重点来了：对每个case做根因标注，不是简单打标签，而是用五维坐标定位：

检索失焦（是否返回了错误类型chunk）
切分失当（错误chunk是否因切分破坏逻辑）
上下文污染（是否注入了干扰信息）
提示失责（LLM是否做了不该做的推理）
评估失准（当前指标是否掩盖了问题）

例如case#87：“问：CT检查辐射剂量比X光高多少倍？答：CT辐射剂量显著高于X光。” 标注结果：检索失焦（返回了科普文章，没返回《医学影像辐射安全指南》中的具体数值表）+ 提示失责（提示词未要求“必须给出具体数值”）。这个标注过程本身，就是团队对RAG本质的认知校准。

3.2 步骤二：诊断根因——用三张表锁定瓶颈

拿到案例库后，不做定性分析，直接上量化诊断。我用三张表交叉验证：

表1：检索质量热力图
对每个失败case，人工评估top5 chunk：

是否包含答案所需的核心实体（如“CT”“X光”“毫西弗”）
是否包含答案所需的逻辑关系（如“比较”“倍数”“标准值”）
是否存在干扰信息（如“孕妇禁用”“设备型号”）
统计后生成热力图：横轴是chunk排名（1-5），纵轴是三个维度，颜色深浅表示达标率。若“逻辑关系”在rank1只有20%达标，说明embedding模型根本没学懂比较关系。

表2：切分合理性审计表
随机抽50个失败case对应的原始文档，用以下标准审计切分：

关键条款是否被跨chunk切割（如“若A则B，否则C”被切到两个chunk）
表格是否完整（有无表头缺失、行列错位）
引用是否可追溯（如“见附录二”是否真有附录二chunk）
我开发了一个Python脚本自动检测：用正则匹配“若.*则.*否则”模式，再检查是否在同一chunk内。某法律文档审计发现73%的条件句被切割，这就是根因。

表3：提示词压力测试表
用5类典型问题测试当前prompt：

数值型（“税率是多少？”）
比较型（“A和B哪个更快？”）
条件型（“满足什么条件可以免检？”）
否定型（“哪些情况不适用？”）
多跳型（“根据A条款，B操作需经谁批准？”）
记录每类问题的“答案可验证率”（答案中每个事实点能否在chunk中找到原文支撑）。若否定型只有40%，说明提示词没强调处理否定信息。

这三张表让我在第一次复盘会上就推翻了团队共识：“不是模型不行，是数据不够”——数据显示，82%的失败源于切分和提示词，与数据量无关。

3.3 步骤三：实施语义切分——用规则引擎替代滑动窗口

放弃所有基于token的切分工具（如LangChain的RecursiveCharacterTextSplitter）。我用Python+spaCy构建语义切分器，核心逻辑分三层：

第一层：结构识别

import spacy from spacy.matcher import Matcher nlp = spacy.load("zh_core_web_sm") # 中文需替换为zh_core_web_sm matcher = Matcher(nlp.vocab) # 匹配标题模式：中文数字+顿号+文字，或“第X条” title_pattern = [ [{"IS_DIGIT": True}, {"TEXT": {"IN": ["、", "．"]}}, {"POS": "NOUN"}], [{"TEXT": {"REGEX": r"第\d+条"}}] ] matcher.add("TITLE", title_pattern)

第二层：语义单元封装
对每个匹配到的标题，向上追溯到上一个标题或文档开头，向下延伸到下一个标题或文档结尾，形成逻辑块。特别处理：

列表项：用<li>标签或“1）”“（1）”等标记识别，整组列表作为1个chunk
表格：用pdfplumber解析PDF表格，每个table对象独立成chunk，元数据存{"type": "table", "headers": ["列1","列2"]}
引用：用正则r"（参见.*?）|（详见.*?）"提取，存入chunk元数据references: ["section_3.2"]

第三层：长文本断点优化
对超2000字符的逻辑块，寻找“逻辑断点”：

连接词后：因此综上但下列情形除外然而
标点后：；。？！（排除括号内的）
并确保断点后内容能独立成意：“系统启动后，需进行初始化配置。初始化包括硬件检测、网络校准、参数加载。” —— 在第一个句号后切分，因为“初始化包括...”是完整子句。

切分后，每个chunk带元数据：

{ "id": "doc123_sec4.2_chunk2", "content": "初始化包括硬件检测、网络校准、参数加载。", "metadata": { "source_doc": "user_manual_v2.3.pdf", "section": "4.2 系统启动流程", "semantic_type": "procedure_step", "references": ["section_4.1"] } }

在医疗器械文档测试中，该切分器使“操作步骤”类问题的准确率从51%升至89%。关键洞察：切分不是预处理，是知识建模的第一步。

3.4 步骤四：部署多路检索——不靠模型，靠架构

放弃“一个向量库打天下”的幻想。我搭建三路检索后端，用统一API聚合：

路A：Dense Retrieval（向量检索）

模型：bge-m3（支持中英混合，且有dense+sparse+colbert三模式）
配置：启用dense模式，top_k=10，但只取score>0.6的结果
优势：捕捉语义相似性，如“返点”和“佣金”

路B：Sparse Retrieval（关键词检索）

工具：Elasticsearch 8.x
配置：
- 字段映射：content^3, metadata.section^2, metadata.semantic_type^1
- 查询：multi_match+bool.should（对query分词后OR搜索）
优势：精准匹配实体和动作，如“华东区”“叠加使用”

路C：Structured Retrieval（结构化检索）

工具：PostgreSQL + pgvector（存chunk元数据）
配置：建表chunks(id, content, metadata jsonb)，创建GIN索引：
```
CREATE INDEX idx_metadata_gin ON chunks USING GIN (metadata);
```
查询：SELECT * FROM chunks WHERE metadata @> '{"semantic_type": "procedure_step"}' AND metadata @> '{"section": "4.2"}';
优势：利用文档结构先缩小范围，再在小集合内做语义检索

聚合逻辑（Python伪代码）：

def hybrid_search(query): dense_results = dense_retriever.search(query, k=10) sparse_results = es.search(query, k=10) struct_results = pg_search(query) # 基于query解析出结构约束 # 加权融合：dense_score*0.4 + sparse_score*0.3 + struct_boost*0.3 all_results = dense_results + sparse_results + struct_results ranked = sorted(all_results, key=lambda x: x['final_score'], reverse=True) # 去重：content相似度>0.85视为重复，留score高者 return deduplicate(ranked)[:3]

在金融合同场景，该架构使“政策叠加规则”类问题的检索准确率从39%升至82%。记住：RAG的鲁棒性不来自单个强大模型，而来自异构检索的冗余设计。

3.5 步骤五：构建动态上下文蒸馏器——让LLM只看该看的

上下文注入不是“扔进去”，是“筛出来”。我的蒸馏器分两阶段：

阶段一：Chunk相关性评分
用轻量模型（DistilBERT-base-chinese-finetuned）对每个chunk打分，输入为[CLS] query [SEP] chunk [SEP]，输出3维logits：

intent_match: query与chunk的意图匹配度（如“如何重置”vs“重置步骤”）
fact_density: chunk中事实性语句占比（用规则识别“是”“需”“应”“不得”等谓词）
negation_weight: 否定词密度（“不”“未”“禁止”“除外”）

训练数据：人工标注500个query-chunk对，标注三维度分数（0-1）。模型大小仅110MB，可部署在CPU上。

阶段二：动态选择与蒸馏

输入：3路检索返回的15个chunk（5+5+5）
步骤：
1. 过滤：intent_match > 0.5且fact_density > 0.3
2. 排序：final_score = intent_match * 0.5 + fact_density * 0.3 + negation_weight * 0.2
3. 选择：取top2，但强制要求——若top1的negation_weight > 0.4，则top2必须negation_weight < 0.1（避免矛盾）
4. 蒸馏：对入选chunk，用规则抽取主谓宾：
  - 匹配[主语] [谓语] [宾语]（如“管理员”“需”“输入旧密码”）
  - 丢弃所有状语（“在登录界面”“首次使用时”）和定语（“最新的”“官方的”）
  - 输出纯事实三元组：["管理员", "需", "输入旧密码"]

最终注入LLM的不是原文，而是：

[FACTS] - 管理员需输入旧密码 - 新密码长度不少于8位 - 密码需包含大小写字母和数字 [QUERY] 如何重置管理员密码？

在SaaS产品文档中，该蒸馏器使答案长度减少42%，幻觉率降至3%。教训：LLM不是人，它需要被喂养“营养膏”，而不是“满汉全席”。

3.6 步骤六：重写提示词——给LLM发岗位说明书

提示词不是艺术创作，是工程规格书。我的RAG提示模板严格遵循四要素：

1. 角色定义（Role）

你是一名【领域】文档核查员，职责是：仅依据提供的资料，输出可验证的客观事实。不解释、不推测、不举例。你的权威仅限于所给资料。

2. 决策边界（Boundaries）

必须查资料的问题：涉及具体数值、时间、条件、流程、限制、例外的情形
可凭常识的问题：基础概念定义（如“TCP是传输层协议”）、通用操作（如“点击保存按钮”）
禁止行为：补充资料外信息、对资料做主观评价、用“可能”“通常”等模糊表述

3. 冲突解决协议（Conflict Resolution）

当资料存在冲突时，按以下优先级采纳：
① 发布时间更新的版本（比较metadata.date字段）
② 来源权威性更高（metadata.source_priority: 官方文档>FAQ>博客）
③ 描述更具体的条款（含数值/条件的优于泛泛而谈）

4. 输出契约（Output Contract）

若资料明确回答：直接输出答案，不加“根据资料”等前缀
若资料未提及：严格输出“资料未说明”
若资料冲突且无法按协议解决：输出“资料冲突，建议查阅【文档名】第【章节】”
禁止使用“我认为”“应该”“一般”等主观表述

模板示例（金融场景）：

[ROLE] 你是一名银行合规文档核查员，仅依据提供的监管文件回答问题。 [BOUNDARIES] - 必须查资料：利率、期限、准入条件、审批流程、罚则 - 禁止推测：未明确写的“是否支持”“何时上线”“如何操作” [CONFLICT_RESOLUTION] - 新规优先于旧规（比较文件发布日期） - 银保监会文件优先于银行内部制度 [CONTEXT] 资料1：《个人贷款管理办法》第5.2条：贷款期限最长不超过5年。 资料2：《2023年信贷政策调整通知》：个人经营贷期限可延长至8年。 [QUERY] 个人经营贷最长可贷几年？ [OUTPUT] 8年

该模板在银行项目中使合规问答准确率稳定在96%。提示词不是越长越好，而是越精确越有力。

3.7 步骤七：上线监控——用三级指标卡住质量红线

上线不是终点，是监控起点。我部署实时监控看板，盯紧三级指标：

L1 检索层监控（每小时）

Recall@5：正确chunk在top5内的比例（阈值≥85%）
Mean Reciprocal Rank (MRR)：正确chunk排名的倒数均值（阈值≥0.7）
Query Coverage：有检索结果的query占比（阈值≥99.5%，低于则查ES索引问题）

L2 对齐层监控（每日抽样）

Context Relevance Score：人工抽检100个query，评估top3 chunk中与query强相关的比例（阈值≥70%）
Chunk Redundancy Rate：top3中内容重复度>0.8的chunk对占比（阈值≤10%，高则说明切分或检索有问题）

L3 生成层监控（实时）

Answer Faithfulness Rate：用规则引擎自动验证答案中每个事实点是否在chunk中存在原文支撑（阈值≥90%）
Hallucination Flag：检测答案中是否出现chunk中未提及的实体、数值、时间（实时告警）
Uncertainty Rate：答案中“资料未说明”“资料冲突”等声明占比（健康值5-15%，过高说明知识库缺失，过低说明LLM在瞎编）

当Faithfulness Rate连续2小时<85%，自动触发：

暂停流量，切到降级模式（返回“正在优化，请稍后”）
抓取最近100个失败case，跑根因分析脚本
生成报告：指出是检索失焦（L1异常）、切分失当（L2异常）还是提示失责（L3异常）

4. 避坑指南：那些没人告诉你的实战陷阱

4.1 陷阱一：用通用embedding模型处理专业文档

我见过最惨的案例：某三甲医院用text-embedding-ada-002处理《ICD-10疾病编码手册》，结果“心肌梗死”和“心绞痛”的向量距离比“心肌梗死”和“肺炎”还近。原因？通用模型在海量网页上训练，学的是“大众语义”，而医学术语的语义空间是封闭的——“梗死”“缺血”“坏死”在临床语境中是强关联，但在网页语料里可能各说各话。

避坑方案：

领域适配微调：用医院提供的1000对同义术语（如“心梗/急性心肌梗死”“COPD/慢性阻塞性肺病”）做对比学习微调。我用LoRA在3090上微调bge-m3，2小时完成，cosine_similarity在医学术语对上从0.41升至0.87。
混合嵌入：对专业术语，用领域词典（如UMLS）获取语义向量，与通用embedding加权融合（领域权重0.6，通用0.4）。
术语标准化前置：在切分后、嵌入前，用规则将“心梗”“MI”“心肌梗死”统一为“急性心肌梗死”，再嵌入。

实测在医保审核场景，该方案使疾病匹配准确率从53%升至89%。记住：没有“最好”的embedding，只有“最匹配任务”的embedding。

4.2 陷阱二：在向量库中存储原始chunk，而非语义摘要

很多人把PDF切分后的原文直接存进向量库，觉得“原汁原味”。问题在于：chunk里充斥着“本手册适用于2023年1月1日后签订的合同”“解释权归甲方所有”等与检索无关的噪声。这些文本会污染向量空间，让“违约金计算”和“合同签署地”被拉近。

避坑方案：存摘要，不存原文

对每个chunk，用LLM（如Qwen1.5-4B）生成30字内摘要：
输入：违约金按未付金额每日0.05%计算，自验收后30日起算。
输出：违约金=未付金额×0.05%/日，起算日为验收后30日。
将摘要而非原文存入向量库，原文存关系型数据库（供生成时回溯）
检索时，用query向量匹配摘要向量，再通过ID关联取原文

在合同管理系统中，该方案使检索速度提升2.3倍（摘要更短），同时Recall@5从76%升至89%。摘要不是压缩，是语义提纯。

4.3 陷阱三：忽略LLM的上下文长度限制，硬塞信息

很多教程教“把top5 chunk全塞进prompt”，却无视LLM的上下文窗口。比如Qwen1.5-72B的上下文是128K，但实际可用约110K（预留18K给prompt和output）。若每个chunk平均1500token，5个就是7500token，看似充裕。但问题在：LLM的注意力机制对长文本后半段衰减严重。我做过实验：把同一chunk放在prompt开头、中间、结尾，生成答案的准确率分别是92%、78%、61%。

避坑方案：位置感知注入

将最相关的chunk（如intent_match最高者）放在prompt最开头（紧接system prompt后）
次相关chunk放中间
最不相关但含关键否定信息的chunk放结尾（利用LLM对结尾的强记忆）
每个chunk前加位置标识：[PRIMARY CONTEXT]、[SUPPORTING CONTEXT]、[CRITICAL CONSTRAINT]

在法规问答中，该方案使关键否定信息（如“不得用于儿童”）的采纳率从67%升至94%。LLM不是硬盘，它是注意力有限的实习生，你要教它“先看什么，再看什么”。

4.4 陷阱四：用BLEU/ROUGE评估RAG答案，如同用尺子量温度

我曾被客户指着报告问：“BLEU得分0.85，为什么用户说答案不准？” 因为BLEU只算n-gram重合，不关心事实对错。用户问“CT辐射剂量”，答案“CT辐射剂量很高”和“CT辐射剂量为10mSv”BLEU可能一样高，但后者才对。

避坑方案：用事实验证替代文本相似

FactScore：将答案分解为原子事实（如“CT剂量10mSv”“X光剂量0.1mSv”“CT是X光的100倍”），对每个事实查chunk中是否有原文支撑
Entailment Check：用NLI模型（如DeBERTa-v3-base-mnli）判断“chunk文本→答案”是否蕴含关系
人工黄金集：构建200个QA对，每个答案标注3个事实点，作为基线

在医疗问答中，FactScore