RAG面试必备:文档分块策略详解(附收藏技巧,小白程序员必看!)
本文系统梳理了RAG面试中的核心工程题——文档分块,涵盖固定长度、递归切分、语义切分、结构化切分等四种主流策略,并深入解析Anthropic的Contextual Retrieval和Jina的Late Chunking两大进阶方案,重点分析块大小的权衡原则与实验验证方法。通过结合Anthropic、LlamaIndex等一线厂商的实践数据,为AI Agent/LLM应用开发面试提供完整答题框架,助力读者快速掌握关键知识点并提升面试竞争力。
之前的文章我们讲过 RAG、微调、长上下文怎么做技术选型,今天进一步讲个 RAG 面试里最容易被追问的一道工程题:文档分块(Chunking)。
本文基于 Anthropic、LlamaIndex、Pinecone、Chroma 这些一线来源的官方资料和实验数据来讲,如果你正在准备 AI Agent / LLM 应用方向的面试,这篇文章会帮你建立一个系统化的回答框架。
一、先给标准答案参考
常见的分块策略就四个:固定长度切分、递归切分、语义切分、按文档结构切。再往上,还有两个解决“分块丢失上下文”问题的进阶方案:Anthropic 的 Contextual Retrieval 和 Jina 的 Late Chunking,面试里这两个是加分项。
对于文档切块大小的权衡,核心矛盾是:块切小了,检索精准,但上下文不够,大模型拿到的是部分内容;如果块切大了,上下文全,但一个向量里塞了太多内容,语义会被稀释,检索精度反而下降。
加分项:要记住文档切块大小没有一个标准的最优值,不同实验在不同语料上测出的最优值不一样(后面给具体数据),对于我们的要求是需要知道怎么在自己的语料上把这个数字测出来。
二、四种常见策略
1、固定长度切分
这是最简单的做法:按字符数或 token 数滑窗切分,再配一段重叠(overlap),防止答案恰好被切在边界上。
常见的基线配置是 512 token 左右、10%~20% 的重叠。
优点:实现简单、快、便宜。
缺点:完全无视语义边界,一句话可能被切成两半。
2、递归切分
这是目前公认的通用配置,思路是按分隔符层级来:先尝试按段落切,段落太长再按句子,句子还不行最后才按词,尽量让每个块保持语义完整。
LangChain的RecursiveCharacterTextSplitter 是典型实现,默认按 [“/n/n”, “/n”, " ", “”] 这个顺序依次尝试,在"块大小可控"和"语义完整"之间取了折中。
在 Chroma 的官方文档也明确说明,对大多数文本,带重叠的递归切分是一个不错的初始方案。
3、语义切分
前两种切分方法本质上还是在数字数,语义切分是去看内容:把文本切成句子,计算相邻句子的 embedding 相似度,在相似度下降最快的地方进行切分,因为那里大概率是内容主题的切换点,这样切出来的每块内容的语义会更加内聚。
语义切分相比简单方法,可能会提升召回率,代价是每个句子都要过一遍 embedding,成本会增加。
4、按文档结构切
文档天生就有结构,例如 Markdown 可以按标题层级切、规章手册按章节切,适合本来就组织良好的结构化文档。
这类切法还有个好处:可以把每个块在文档结构里的位置(比如它属于哪一章哪一节)一起记下来,作为块的上下文。这样在检索的时候召回更准,给用户标注来源的时候也好溯源。
三、进阶切分策略:解决"丢上下文"问题
其实不管用哪种策略切,都绕不开同一个问题:块切出来之后,丢了全局上下文。
举个例子,一个块里写着"该公司本季度营收增长了 3%"——哪家公司?哪个季度?这些信息可能在文档开头,但是被切到别的块里去了。如果用户拿"ACME 公司 2023 年 Q2 营收"去检索,这个块大概率召不回来。
业界目前有两个代表性解法。
1、Contextual Retrieval (Anthropic)
思路:给每个块"补"文字上下文:用 LLM 通读全文,为每个块生成一小段说明(这个块来自哪份文档、讲的是什么背景),拼在块前面,再做 embedding 和 BM25 索引。
Anthropic 官方给的数据:仅上下文 embedding 一项,就把 top-20 检索失败率平均降低了35%;叠加 Contextual BM25之后失败率降低 49%;再加重排序,检索错误率从 5.7% 降到 1.9%,效果还是很显著的。
这个方法的成本在于每个块都要过一遍 LLM,官方明确建议用 prompt caching 来控制开销,把全文缓存住之后,成本能压下来一个量级。
2、Late Chunking (Jina AI)
传统做法:先把文档切成 chunk,再分别送入 embedding 模型,每个 chunk 的向量只包含本 chunk 内的上下文。
Late Chunking 是把整篇文档,或者一个能放进模型上下文窗口的长段落 / macro-chunk,送入长上下文 embedding 模型,得到 token-level embeddings。
然后根据预先记录的 chunk 边界,对对应 token embeddings 做 mean pooling,生成每个 chunk 的向量。这样得到的 chunk 向量融合了更大上下文窗口内的信息,能缓解传统 chunk 独立嵌入导致的上下文丢失问题。
实现上的限制是必须使用长上下文 embedding 模型,例如 8K 上下文的 jina-embeddings-v2;如果文档超过模型窗口,则需要先切成带重叠的 macro-chunk,再在每个 macro-chunk 内做 Late Chunking。
面试时把这两个进阶方法的思路讲清楚:一个靠 LLM 补文字上下文;一个靠长上下文模型在向量层面保留上下文,基本就是这道题的天花板回答了。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包:
- ✅ 从零到一的 AI 学习路径图
- ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
- ✅ 百度/阿里专家闭门录播课
- ✅ 大模型当下最新行业报告
- ✅ 真实大厂面试真题
- ✅ 2026 最新岗位需求图谱
所有资料 ⚡️ ,朋友们如果有需要《AI大模型入门+进阶学习资源包》,下方扫码获取~
① 全套AI大模型应用开发视频教程
(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)
② 大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
③ 大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
④ AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
⑤ 大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
⑥ 大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
以上资料如何领取?
为什么大家都在学大模型?
最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!
不出1年,“有AI项目经验”将成为投递简历的门槛。
风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!
这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
