当前位置: 首页 > news >正文

RAG系列:#5 RAG中的11种分块策略

原文https://mp.weixin.qq.com/s/Yax05qsVj1tXi77za8Wm2g欢迎关注公zh: AI-FrontiersRAG往期文章推荐RAG效果差7个指标让你的准确率大幅提升RAG评测完整指南指标、测试和最佳实践收藏RAG核心工具大全: 7大解析工具向量模型数据库检索排序GraphRAG开源生态全景6大主流开源项目微软/蚂蚁/港大项目同台PK检索增强生成RAG将 LLM 与信息检索系统相结合以生成更准确、更符合上下文的响应。通过从外部文档中获取相关信息解决了LLM固有的一些问题幻觉问题 (Hallucination)当被问到知识盲区或不确定的内容时大模型容易一本正经地编造看似合理但完全虚构的细节。比如你问「蓝鳍X9的新型芯片性能如何」如果模型在训练时没学过它可能会凭空捏造出这款芯片的参数、性能和评价。知识固化与过时无法知晓训练截止日期之后发生的事比如你问「2026年世界杯决赛结果如何」模型只能回答「我的知识截止到某年某月无法提供最新信息」或者胡编一个结果。缺乏领域深度与可溯源性: 在回答高度专业或企业内部独有的问题时往往不够深入最关键的是无法知道答案来自哪里。RAG 的一个关键组成部分是「分块」: 将大型文档分割成更小、更易于管理的部分。然后对这些块进行索引并在检索阶段使用这些块为语言模型提供上下文相关的信息。为什么分块很重要在 RAG 中分块有多种用途① 决定检索的命中精度与召回率块太大如一整章细节问题易被噪音干扰模型难以找关键信息回答不精确或产生幻觉块太小如单个句子丢失上下文导致召回失败理想情况块应包含独立、完整的语义单元如一个概念的解释、一个问答对兼顾语义完整与检索精度② 突破大模型的上下文窗口与注意力限制上下文窗口限制模型处理能力有限超长文档无法一次输入。即使窗口够大全文检索也面临速度慢、成本高、易被无关信息干扰等问题。分块是海量知识“索引化”的关键注意力稀释效应输入整本书时模型注意力被分散。给出少量精准、高相关度的“知识卡片”能让注意力集中提升回答质量③ 直接影响生成答案的连贯性与完整性合理分块能提供信息丰富、边界清晰的完整文本便于模型提炼答案。分块破碎则输入碎片化生成内容易前言不搭后语分块策略概述文本分块策略因其划分文本的方式和保留的上下文层次而异。主要包括固定长度分块基于句子的分块基于段落的分块滑动窗口分块语义分块递归分块上下文增强型分块特定模态分块代理分块子文档分块混合分块每种方法都有其独特的优势、适用于特定的应用场景。本文将详细介绍每种分块方法比较不同的分块策略探讨如何选择合适的分块策略并了解在 RAG 中实施分块的最佳实践。固定长度分块原理将文本分割成预定义长度的块通常基于标记或字符适用场景简单的文档、常见问题解答或者处理速度是首要考虑因素的情况优势简单易行无需复杂算法即可轻松实现统一性生成一致的块大小简化索引挑战上下文丢失可能导致句子或想法断裂从而造成信息不完整相关性问题关键信息可能跨越多个数据块从而降低检索效率实施技巧选择合适的块大小兼顾上下文和效率考虑结合重叠窗口来减少上下文丢失基于句子的分块原理在句子边界处分割文本确保每个部分都是一个完整的思想适用场景简短、直接的回复例如客户查询或对话式人工智能优势上下文保留保持单个句子的完整性易于实施利用自然语言处理NLP工具进行句子检测挑战上下文有限单个句子可能缺乏足够的上下文信息来回答复杂的问题长度可变句子长度可能不同导致句子块大小不一致实施技巧使用自然语言处理库进行精确的句子边界检测如果多个句子较短请将它们合并成一个更完整的句子基于段落的分块原理将文档拆分成段落每个段落通常包含一个完整的想法或主题适用场景结构化文档如文章、报告或论文优势更丰富的语境提供比基于句子的片段更多信息逻辑划分与文本的自然结构一致挑战大小不一致段落长度可能差异很大标记限制较长的段落可能会超出模型的上下文长度限制实施技巧监控数据块大小确保其保持在可接受的 token 限制范围内如有必要可将较长的段落进一步拆分同时尽量保持上下文连贯性滑动窗口分块原理通过在文本上滑动窗口来创建重叠的文本块确保相邻的文本块共享内容适用场景需要保持各部分之间上下文联系的文档例如法律或医学文本优势上下文连续性重叠部分有助于保持信息的流畅性改进检索提高检索结果中包含相关信息的概率挑战冗余内容重叠会导致信息重复计算成本数据块越多处理和存储需求就越高实施技巧根据文档性质优化窗口大小和重叠部分在检索过程中使用去重技术来处理冗余数据语义分块原理利用 embedding 或机器学习模型根据语义含义分割文本确保每个部分在主题或思想上是连贯的适用场景需要深入理解的复杂查询例如技术手册或学术论文优势上下文相关性数据块按有意义的方式分组从而提高检索准确率灵活性能够适应文本固有的结构和内容挑战复杂性需要高级自然语言处理模型和计算资源处理时间语义分析可能很耗时实施技巧利用预训练模型进行语义分割计算成本与语义块粒度之间的平衡递归分块原理使用字符、标题、副标题、段落和句子等层次分隔符将文本逐步分解成更小的部分适用场景大型、层级结构化的文档如书籍或篇幅较长的报告。优势层级上下文维护文档的结构关系可扩展性对超大型文本有效挑战实现复杂需要处理多层文本结构潜在的上下文丢失即使是最小的数据块如果管理不当也可能丢失上下文实施技巧利用文档结构如 HTML 标签来识别层次结构存储有关每个数据块在层次结构中的位置的元数据以便在检索时提供上下文信息上下文增强型分块原理通过添加来自周围块的摘要或元数据来丰富每个块从而在序列之间保持上下文适合场景篇幅较长、需要保证多个部分之间连贯性的文档优势增强上下文提供额外信息而不会显著增加数据块大小提高一致性帮助模型生成更准确、更符合语境的响应挑战复杂性需要额外的处理才能生成摘要或元数据存储开销增强型数据块会占用更多存储空间实施技巧生成简洁的摘要以最大限度地减少额外的令牌使用考虑将关键术语或概念作为元数据包含在内而不是提供完整的摘要特定模态分块原理分别处理不同的内容类型文本、表格、图像并根据其性质对每种内容进行分块处理适合场景混合媒体文档例如科学论文或用户手册优势定制化方法针对每种内容类型优化分块提高准确率专门的处理可以提高检索效率挑战实现复杂度每种模态都需要自定义逻辑整合难度在检索过程中整合来自不同模态的信息可能具有挑战性实施技巧使用OCR识别包含文本的图像将表格转换为结构化数据格式保持不同模式下索引系统的一致性代理分块原理采用大型语言模型 (LLM) 分析文本并根据内容结构和语义建议块边界适用场景需要保留含义和上下文的复杂文档优势智能分割利用 LLM 的理解能力创建有意义的块适应性强能够有效处理多样化和非结构化的内容挑战计算密集型处理整个文档需要大量资源成本由于计算成本可能不适用于大规模应用实施技巧对关键文档有选择地使用主体分块优化 LLM 提示使其能够高效地识别逻辑块边界子文档分块原理对整个文档或大段内容进行总结并将这些总结作为元数据附加到各个部分适用场景提高大型文档集合的检索效率优势分层检索允许检索系统在多个上下文级别上运行上下文深度为模型提供额外的信息层挑战额外处理需要生成和管理摘要元数据管理增加了索引系统的复杂性实施技巧利用自然语言处理技术实现摘要过程自动化高效存储汇总信息以最大限度地减少对存储空间的影响混合分块原理结合多种分块策略动态适应不同的查询类型或文档结构适用场景能够处理各种查询和文档类型的多功能系统优势灵活性可根据内容和需求切换策略性能优化在各种使用场景下平衡速度和准确性挑战复杂逻辑需要复杂的决策算法维护组件越多出错的可能性就越大实施技巧制定选择分块策略的标准例如文档类型、查询复杂度对混合方法进行广泛的测试和验证以确保其可靠性分块策略的比较分析分块策略上下文保留度实现复杂度计算成本最适合场景固定长度分块低低低简单文档对速度要求高的应用场景基于句子的分块中低低短查询对话式人工智能基于段落的分块中高低中结构化文档滑动窗口分块高中高对上下文要求高的文本语义分块高高高技术或学术文档递归分块高中中大型、分层结构的文档上下文增强分块非常高高高需要连贯性的长文档特定模态分块可变高可变混合媒体文档代理分块非常高非常高非常高需要深度理解的复杂文档子文档分块高高高大型文档集合混合分块可变非常高可变多功能系统选择合适的分块策略选择合适的分块策略取决于以下几个因素文档类型结构化文档与非结构化文档、长度和模式查询复杂度简单常见问题 vs. 复杂技术咨询资源可用性计算能力和时间限制预期结果速度 vs. 准确性 vs. 上下文保留指南为了提高速度使用固定长度或基于句子的分段对于上下文选择滑动窗口、语义或上下文增强型分块对于混合内容采用特定模态或混合分块对于大型系统使用递归或子文档分块在效率和上下文之间取得平衡RAG 中分块实施的最佳实践监控代码块大小确保代码块保持在语言模型的标记限制内保持原意避免随意拆分句子或逻辑单元优化检索使用适合分块策略的高效索引和检索机制处理冗余实施去重以管理重叠内容广泛测试使用特定数据和查询评估不同的策略以找到最佳方法利用元数据使用元数据增强数据块以提高检索相关性分块是检索增强生成RAG过程中的一个关键步骤它直接影响系统的效率和准确性。理解各种分块策略及其适用场景有助于开发者根据自身需求定制RAG系统。通过权衡上下文保留、计算成本和实现复杂度之间的利弊可以选择最合适的分块方法来有效地增强语言模型
http://www.rkmt.cn/news/1409173.html

相关文章:

  • 别再只用apt update了!Ubuntu系统升级的正确姿势(附do-release-upgrade保姆级教程)
  • 2026年5月常州企业快餐配送品牌公司业内推荐:为何“常州锦润餐饮管理有限公司”备受青睐? - 2026年企业资讯
  • 2026年隔离墩模具/挡土墙模具厂家推荐:流水槽/排水沟/化粪池/护坡模具优质选型与口碑解析 - 品牌企业推荐师(官方)
  • 如何通过 6 种简单方法将联系人从 iPhone 传输到三星
  • 信号去趋势实战避坑:最小二乘法拟合,多项式阶数到底选几阶才合适?
  • VLSI架构实现心电信号自适应压缩:在功耗与精度间动态平衡
  • 2026年东莞塑胶/注塑/新材料/硅胶制造业ERP系统推荐榜单:深度解析信息化高效转型之选 - 品牌企业推荐师(官方)
  • Ensembl BioMart实战:快速搞定基因ID、Symbol与长度的匹配表(避坑TSV文件空格问题)
  • 6款论文降AI率平台实测:AI率直降安全线,学生党必入平价款
  • 光电子神经形态计算:RTD神经元原理与应用
  • 在 HarmonyOS 模拟器上用递归种出科赫分形
  • 苏州华为培训哪家好?
  • WSL2磁盘空间告急?保姆级教程教你迁移Ubuntu到D盘并释放C盘空间
  • ECC 内存技术新手入门与部署指南
  • 数据结构(5) 循环列表,哈希表
  • OpenAI API 协议、 Chat Completions API、Responses API 协议 对比和联系,适用场景以及还有哪些其他协议详解
  • PS换脸肤色不统一?Nano Banana一键智能校色,彻底告别面具感
  • 别再折腾了!保姆级教程:在Ubuntu 22.04服务器上配置Jupyter Lab远程访问(含防火墙和后台运行)
  • 基于Java打造传统民俗解读平台智能趣味测评系统源码搭建
  • 别再折腾了!Windows 10/11 本地一键部署Nacos 2.0.3单机版(含MySQL配置避坑)
  • 智能卡尔曼滤波:用轻量级RNN动态优化信道估计噪声参数
  • 百考通AI:开题报告智能生成,轻松输出专业内容
  • 鸿蒙截屏/投屏/录屏状态检测:isCaptured 与 onCaptureStatusChange 实战
  • 【迭代升级,焕新出发】海纳数聚公文写作产品升级纪实
  • Mac 上怎么找到这个目录 /Users/你的用户名/Library/Application Support/JetBrains
  • 告别微信文件传输!用ES文件浏览器+Windows共享,5分钟搞定手机电脑大文件互传
  • 原来市面上这些余热锅炉直销厂家,究竟好在哪里?
  • 人工智能通识课:大模型
  • 贝叶斯统计中的“隐藏基石”:Beta分布与Gamma函数关系详解及PyMC3应用实例
  • 鲸采云AI智能预测:自动联动库存,一键生成精准采购