尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

PDF 提取表格到 Excel(含扫描版),断网批量可用

PDF 提取表格到 Excel(含扫描版),断网批量可用
📅 发布时间:2026/7/3 1:15:03

大家好,这里是办公智能体广场。最近过分的研究了下PDF提取表格到Excel里面的技术,无论是扫描版(图片)PDF 还是 文字可编辑版PDF 。

今天就总结下方案与教程:可以在断网环境将一批PDF里面的表格数据提取到Excel。

一、需求分析

我准备了几个PDF ,其中一个PDF 有63页, 然后在第61页处,有一个表格,如图所示:

然后还准备了另外一个扫描类型(图片)的PDF , 素材来自于公开网络。打开如图:

需要将上面的PDF 提取所有的表格,得到xlsx,我直接先放上面两个图的提取结果示意图:

二、实现方案一:小白上手

打开鲸闲办公智能体广场,找到 “PDF 提取表格到Excel”,如图:

注意,可断网使用!!!

获取: 宫中&浩气: “老罗软件”。然后将所有的PDF 进行输入,如图:

这里,我需要说明一些设置参数的意义。

识别页范围

如果不填,就是会识别PDF所有的页,如果页比较多就会消耗时间较长,尽量设置表格所在的页。

合并跨页表格

有的表格可能跨了PDF的页了, 勾选这个就会智能去合并成一个表格到Excel的一个表单里面。

二次加工设置参数

这个就是已经OCR扫描完成后,对Excel表格进行一些处理,相当于清理脏数据等,比如下面设置:

输出结果

输出结果一个PDF对于一个Excel文件,PDF的每一页都是一个表单Sheet,没有表格的页不会提取出来,如图所示:

三、实现方案二:Python脚本

用 Python 做 PDF / 图片批量抽表入 Excel,对经常要整理发票、对账单、扫描报表、截图表格的人来说,是个很实用的路子。

优势:

  • 可批量处理大量文件,适合成百上千份材料
  • 对扫描件、截图、拍照表格比纯文本抽取更友好
  • 支持 PDF 和常见图片格式,走同一套流程
  • 本地运行,文件不出本机,适合内部资料
  • 不修改原文件,只在输出目录生成 Excel

劣势:

  • 需要一定 Python 基础,首次要装依赖并下载模型
  • 复杂版式、无边框表格、模糊扫描件可能需要人工核对
  • 合并单元格、嵌套表头等结构导出后往往还要再整理
  • 大批量高清 PDF 耗时较长,CPU/GPU 压力较大

下面是一个简单的脚本示例:批量读取目录下的 PDF / 图片,识别表格并导出 Excel。

import os from pathlib import Path from paddlex import create_pipeline # 总目录,可放多个子文件夹 input_root = r"path\to\your\files" # 输出目录 output_root = r"path\to\your\output" Path(output_root).mkdir(parents=True, exist_ok=True) # 支持的输入格式 SUPPORTED_EXT = {".pdf", ".png", ".jpg", ".jpeg", ".bmp", ".webp", ".tif", ".tiff"} # 创建 PaddleX 表格识别流水线(首次运行会自动下载模型) pipeline = create_pipeline(pipeline="table_recognition") def process_file(file_path: Path): ext = file_path.suffix.lower() if ext not in SUPPORTED_EXT: print(f"跳过不支持的文件:{file_path}") return print(f"识别中:{file_path}") # predict 支持单张图片;PDF 会按页识别 results = pipeline.predict(str(file_path)) out_dir = Path(output_root) / file_path.stem out_dir.mkdir(parents=True, exist_ok=True) for i, res in enumerate(results): # 每个识别结果保存为一个 Excel(具体 API 以当前 PaddleX 版本为准) xlsx_path = out_dir / f"table_{i + 1}.xlsx" res.save_to_excel(str(xlsx_path)) print(f" -> {xlsx_path}") def walk_files(root: Path): for path in root.rglob("*"): if path.is_file(): process_file(path) if __name__ == "__main__": walk_files(Path(input_root)) print("所有文件处理完成!")

四、总结

两份 PDF 都测过了:63 页可编辑版(表格在第 61 页)和扫描版,都能批量抽成 xlsx。不想折腾环境,用智能体就行,记得填页码范围、跨页表格按需勾选,导出后不满意再用二次加工清理。材料多、要自定义规则,再上 Python 脚本。两种都本地跑,原文件不动。复杂版式别全信,抽完抽检几份就够。日常发票、对账单、报表归档,这套流程基本够用。

相关新闻

  • 从零到赏金猎人:网络安全速成与漏洞挖掘完整实战方案
  • 【2025实测指南】录音转行动项用什么工具?新手避坑干货
  • FIRRTL宽度推断:形式化建模与高效求解算法

最新新闻

  • AppleRa1n终极指南:5分钟快速绕过iOS 15-16激活锁
  • XSS防护实战:基于js-xss的白名单过滤与安全审计指南
  • 如意智囊团:让一群 AI 分工协作干活,CrewAI 三分钟上手
  • Node.js Promise.all 并行查询实战:性能提升与错误处理详解
  • 一个命令救命:GitHub 爆火项目 thefuck,真把我笑服了
  • AI Agent 高频面试题:MCP 组成部分和交互流程?一篇文章讲清楚!

日新闻

  • JMeter接口测试实战:从核心元件到复杂场景构建
  • Java Applet版刽子手游戏源码:含完整项目结构、吊杆绘图与胜负逻辑
  • 使用Apache JMeter对RoadRunner PHP应用进行性能测试与调优指南

周新闻

  • Windows字体自定义终极方案:No!! MeiryoUI完全指南
  • Deepin Boot Maker:告别命令行,3分钟制作Linux启动盘的智能解决方案
  • Plain Craft Launcher 2:重新定义你的Minecraft游戏体验

月新闻

  • 2026年6月公司网站搭建最新热门渠道测评:四大低成本/零代码平台对比+避坑
  • 【Linux】Linux arm 编译QT程序,出现expected “}“报错
  • 【MATLAB例程】四基站二维AOA定位与距离辅助增强对比仿真。基于角度观测和测距修正的固定目标平面定位精度分析

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号