当前位置: 首页 > news >正文

第24章:多模态 RAG——图片、PDF 与版面信息

1. 项目背景

某硬件公司的产品说明书是 PDF 格式,包含大量图文混排内容——产品外观图片、电路连接示意图、参数规格表格、操作步骤截图。售后团队将 200+ 份说明书导入知识库上线两周后,客服同事反馈了一个令人哭笑不得的场景:

用户问"这个接口在设备哪个位置",纯文本 RAG 回答——“请参见说明书第 3 页的接口图示”。回复本身没错,第 3 页确实有一张标注了所有接口位置的示意图,但纯文本 RAG 只能告诉你"去看图",没法把图片呈现给用户。用户问"红色指示灯亮了代表什么",纯文本 RAG 回答"指示灯状态请参见说明书第 15 页",然而"红色指示灯亮起表示设备过热需立即断电"这条关键信息恰恰只在说明书第 15 页的一张提示图中以红色标注文字呈现,正文里一个字都没有。

三个维度的信息丢失尤为突出:

第一,图片信息丢失。产品说明书中的示意图、标注图、流程图承载了大量"一图胜千言"的信息——比如电路板的跳线设置、设备接口的物理位置、LED 指示灯的颜色含义。这些信息是"天然的图片信息",以像素和标注形式存在,文本层根本没有对应的文字描述。Embedding 模型再强,也无法理解一个没有文本的图片区域。

第二,表格结构破坏。规格参数表——3 列 10 行,列标题是"参数名 / 最小值 / 最大值",纯文本解析后变成了一行混乱的字符串:“参数名 最小值 最大值 输入电压 12V 24V 工作温度 -20 85 额定功率 50W 200W…”。列与列的对应关系丢失,用户问"输入电压的最大值是多少",系统要么找不到,要么把"工作温度的最大值 85℃"当成答案。

http://www.rkmt.cn/news/1525940.html

相关文章:

  • FModel终极指南:深入解析虚幻引擎资源浏览器的5大核心技术模块
  • Flashtool完整指南:拯救索尼Xperia设备的终极刷机解决方案
  • UI-TARS桌面版:用自然语言重新定义桌面自动化,5分钟开启智能工作新时代
  • 腾讯股票行情接口 http://qt.gtimg.cn/q=sh600000 完整格式解析
  • 汽车之家图片爬虫实战:从零下载完整车型图库
  • LibreDWG:解密开源CAD格式转换的底层架构与实战应用
  • 2026年6月最新版青岛正规房屋漏水防水补漏维修口碑名单:创维修缮机构等5家深度测评 - 一休咨询
  • 2026年6月最新版清远正规房屋漏水防水补漏维修口碑名单:创维修缮机构等5家深度测评 - 一休咨询
  • 从AR滤镜到机械臂抓取:深入聊聊OpenCV中solvePnP的6种算法该怎么选
  • 2026北京汽车贴膜门店测评:6家实测,选店方法论与评分 - 资讯速览
  • 2025金税四期下,如何挑选海南高口碑本土财税代账公司?正规高效、收费透明、会计团队强才是关键 - GrowthUME
  • 软件工程课程学期回顾
  • 2026聊城汽车贴膜门店推荐,6大进口/国产品牌门店测评 - 资讯速览
  • 高效部署Grounding DINO:从零开始掌握开源目标检测模型
  • Cursor免费试用重置终极指南:彻底解决试用限制问题
  • LIMS数据导入前,PDF这步卡了我们3个月 - lcs
  • 2026年更新聚焦:游泳池水/二次供水检测单位,佛山附近范围 - 公共场所卫生检测
  • 3分钟掌握Dify工作流神器:告别重复劳动的终极AI自动化方案
  • 2026年6月国内口碑好的压片机源头厂家选哪家,干粉制粒机/消毒片压片机/旋转式压片机/干粉造粒机,压片机源头厂家哪个好 - 品牌推荐师
  • 5大核心优势解析:w64devkit如何重塑Windows平台C/C++开发体验
  • AI 驱动的索引推荐系统:从慢查询模式到最优索引组合的自动推导
  • 【跨域协同】UAV—USV跨域协同搜索算法仿真(含最大熵-信息素算法)【含Matlab源码 15622期】
  • 2026国内AI搜索优化源头厂商深度评测与选型避坑指南 - 品牌报告
  • 特征选择中的熵与互信息原理及实战应用
  • Honey Select 2终极汉化去码补丁:一站式解决方案实现完整游戏体验
  • GB/T 28181 协议技术详解:视频监控国标从入门到实战
  • 高效实现跨平台文件共享:LANDrop局域网传输工具完整使用指南
  • 如何用GroundingDINO实现零样本目标检测:从概念到实战的完整指南
  • 高并发系统流量治理的底层算法
  • 2026年海安车灯升级到店前先看什么?车型、问题和用车场景这样问更省时间 - Ayu8888