当前位置: 首页 > news >正文

rag的图文多模态

1.图片常见处理

图片 OCR = 图片里写了什么字
图片 caption = 这张图大概画了什么
图片附近正文 = PDF 里紧挨着图片的解释文字
图片所在页全文 = 图片所在那一整页的文字

ocr工具Releases · UB-Mannheim/tesseract · GitHub

unstructured的切割原理

文档地址:Document elements and metadata - Unstructured

元素说明

元素类型 描述 Formula 文档中包含公式的元素。 FigureCaption 用于捕获与图注相关的文本的元素。 NarrativeText 叙述文本是由多个结构完整的句子组成的元素。这不包括标题、页眉、页脚和图注等元素。 ListItem ListItem 是 NarrativeText 元素,它是列表的一部分。 Title 用于显示标题的文本元素。 Address 用于记录实际地址的文本元素。 EmailAddress 用于收集电子邮件地址的文本元素。 Image 用于捕获图像元数据的文本元素。 PageBreak 用于捕获分页符的元素。 Table 用于捕获表格的元素。 Header 用于捕获文档标题的元素。 Footer 用于捕获文档页脚的元素。 CodeSnippet 用于捕获代码片段的元素。 PageNumber 用于获取页码的元素。 UncategorizedText 用于捕获文档内自由文本的基本元素。

参数说明

filename: Optional[str] = None PDF 文件路径。比如 "docs/a.pdf"。 file: Optional[IO[bytes]] = None 已经打开的二进制文件对象。通常和 filename 二选一。 include_page_breaks: bool = False 是否在结果里包含分页符/分页元素,用来标记页与页之间的断点。 strategy: str = PartitionStrategy.AUTO 解析策略。AUTO 表示自动选择。常见策略可能包括普通文本提取、OCR、高精度布局识别等。 infer_table_structure: bool = False 是否推断表格结构。开启后会尝试把表格解析成更结构化的形式,而不是普通文本。 ocr_languages: Optional[str] = None OCR 识别语言,旧参数,注释里说正在废弃。比如 "eng"、"chi_sim" 等,具体取决于底层 OCR 支持。 languages: Optional[list[str]] = None OCR/语言识别使用的语言列表。新参数,可能用来替代 ocr_languages。比如 ["eng", "chi_sim"]。 detect_language_per_element: bool = False 是否对每个元素单独检测语言。比如标题是中文、正文是英文时,可以分别判断。 metadata_last_modified: Optional[str] = None 手动指定文档的最后修改时间元数据。比如 "2024-01-01"。 chunking_strategy: Optional[str] = None 分块策略。通常由装饰器使用,用来控制解析出的元素如何进一步合并成 chunk。 hi_res_model_name: Optional[str] = None 高精度解析时使用的模型名称。通常用于布局检测、表格检测、图片区域识别等。 extract_images_in_pdf: bool = False 是否从 PDF 中提取图片。这个参数可能是旧接口,后面更推荐用 extract_image_block_types 之类的参数。 extract_image_block_types: Optional[list[str]] = None 指定要提取哪些类型的图像块。比如可能包括 "Image"、"Table" 等,具体看库支持。 extract_image_block_output_dir: Optional[str] = None 图片/图像块提取后保存到哪个目录。 extract_image_block_to_payload: bool = False 是否把提取出来的图像块直接放进返回结果的 payload 里,而不是保存成文件路径。 starting_page_number: int = 1 起始页码编号。默认第一页编号为 1。如果你的 PDF 是从某本书第 10 页开始的,可以设成 10。 extract_forms: bool = False 是否提取 PDF 表单内容,比如可填写表单里的字段。 form_extraction_skip_tables: bool = True 提取表单时是否跳过表格区域。默认跳过,避免把表格误判成表单。 password: Optional[str] = None PDF 密码。如果 PDF 加密了,可以传密码。 pdfminer_line_margin: Optional[float] = None pdfminer 的行间距合并参数。影响哪些文字行会被认为属于同一个文本块。 pdfminer_char_margin: Optional[float] = None pdfminer 的字符间距参数。影响字符/单词如何被合并。 pdfminer_line_overlap: Optional[float] = None pdfminer 的行重叠判断参数。影响文本行识别。 pdfminer_word_margin: Optional[float] = 0.185 pdfminer 的词间距参数。影响什么时候在字符之间插入空格。默认是 0.185。

PDF 页面

  • 一个el:只对应图中一个框(一段字 / 一张表 / 一张图)

┌─────────────────────────────┐
│ Title → el #1 │
│ 正文段落 → el #2 │
│ ┌─────────┐ │
│ │ 表格 │ → el #3 │
│ └─────────┘ │
│ ┌─────────┐ │
│ │ 图片 │ → el #4 │
│ └─────────┘ │
└─────────────────────────────┘

标题分,父子索引

http://www.rkmt.cn/news/1475503.html

相关文章:

  • CSDN AI数据看板能否查关键词排名?实测5类API接口+4层权限验证后给出 definitive 答案
  • 基于LabVIEW的虚拟示波器:低成本实现信号采集与数字滤波
  • 不同情况怎么卖黄金?杭州各类人群黄金变现适配指南 - 奢侈品回收评测
  • 【项目博客】系统核心功能模块开发
  • 2026年AI写作辅助软件深度评测:6款工具全能表现得分排名
  • BugKu CTF 眼见非实
  • 2026年一键生成论文工具实测排行,哪款真正适合一站式撰稿?
  • 2026年好用的AI论文工具推荐
  • Windows CMD与Powershell常用命令
  • AI分发后单平台撤回成功率骤降42%?——基于137个真实案例的CSDN 2024 Q2分发引擎变更影响分析
  • 快速掌握OpenRocket:免费火箭设计仿真软件的完整指南
  • Pytest实战包:含登录验证与API接口测试的完整可运行工程
  • 你的KEGG气泡图还缺什么?试试这个能展示具体基因的桑吉气泡图(附在线工具链接)
  • 不止于ScanNet:盘点5大主流RGB-D数据集,为你的3D视觉项目选对“燃料”
  • 新手福音:借助快马平台理解cc switch,从零到一实现角色控制切换
  • 2026年邯郸装修公司推荐榜单:奶油风/新中式/法式/意式轻奢/现代简约风格深度评测+避坑指南 - 品牌企业推荐师(官方)
  • 干货合集:2026年靠谱AI论文平台榜单,高质初稿轻松写
  • 向量引擎落地实测,聊聊零基础搭建私有知识库
  • GPX Studio:你的免费在线GPS轨迹编辑专家
  • 昆明黄金回收实测盘点:主流品牌分级,靠谱门店优选指南 - 奢侈品回收评测
  • 3步实现PDF批量OCR自动化:OCRmyPDF终极指南
  • AI赋能CNN创新:让快马平台智能生成集成注意力机制的先进模型代码
  • 2026年按钮开关品牌及源头厂家综合报告:金属按钮、急停按钮、带灯按钮、防水按钮、微型按钮开关供应企业深度分析 - 品牌企业推荐师(官方)
  • 企业级DNS与高可用代理架构规划与实施【20260606】001篇
  • 围棋AI训练终极指南:KaTrain助你快速提升棋力
  • 归并排序——保研刷题随记
  • 昆明购宠全攻略:避坑指南 + 5 家靠谱门店精选 - 资讯速览
  • 企业如何抢占AI时代流量高地?GEO给出新思路
  • 英语语法积累
  • 别再被L298N的供电搞懵了!STM32F103C8T6两种接线方案实测(附代码)