尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

深入解析:ST-Raptor:无需微调,准确率超越 GPT-4o 的半结构化表格问答新范式

深入解析:ST-Raptor:无需微调,准确率超越 GPT-4o 的半结构化表格问答新范式
📅 发布时间:2026/6/18 19:45:16

在文档智能、财务审核、报表自动化、医疗质控、法律合规等实际业务场景中,半结构化表格(如 Excel 报表、网页表格、Markdown 表格、CSV 文档等)无处不在。然而,这些表格往往具有嵌套单元格、多级表头、不规则布局等麻烦结构,传统基于规则或微调模型的方法难以准确理解与问答。

近期,上海交通大学等机构开源了 ST-Raptor(Semi-Structured Table Raptor)——一个无需微调、准确率超越 GPT-4o 的半结构化表格问答框架。在自建的SSTQA 基准测试(含 102 张真实表格、764 个复杂问题)上,ST-Raptor 以72.39% 的准确率和 52.19 的 ROUGE-L 分数,显著优于包括 GPT-4o、DeepSeek-V3、TableLLaMA、ReAcTable 等在内的主流方法。

为什么半结构化表格问答如此困难?

与规整的数据库表不同,半结构化表格通常具备以下挑战:

  • 多级表头:如“2024年 → 收入 → 主营业务收入”
  • 合并单元格:一个单元格横跨多行或多列
  • 非对齐内容:行列信息错位、注释混排
  • 语义依赖上下文:单元格含义依赖其在表格中的位置和层级

这些特性使得传统 NL2SQL 或纯文本抽取方法失效,而端到端微调模型又受限于标注成本高、泛化能力弱。


ST-Raptor 的核心技术架构

ST-Raptor 的核心思想是:将视觉感知、结构解析与语言推理三者融合,形成一个无需微调但高度鲁棒的问答流水线。整体流程分为三步:

1. 视觉语言模型(VLM)识别原始表格

ST-Raptor 首先将输入的 Excel/HTML/Markdown 表格渲染为图像,利用InternVL2.5 等 VLM 模型识别每个单元格的内容及其空间位置。这一步应对了 OCR 误差、格式丢失等问题,保留了原始布局语义。

2. HO-Tree 算法构建层次化结构树

基于 VLM 输出的单元格坐标与文本,ST-Raptor 引入自研的HO-Tree(Hierarchical Organization Tree)算法,将表格自动抽象为一棵层次化语义树:

  • 树的节点对应逻辑区块(如“预算绩效目标表”)
  • 子节点表示子表头或数据行
  • 路径编码了行列的层级依赖关系

这种结构化表示使得后续推理能精准定位问题所涉区域,避免“答非所问”。

3. LLM 在树结构上进行推理问答

最后,系统将问题与 HO-Tree 结合,通过大语言模型(如 DeepSeek-V3 或 GPT-4o API)在结构化上下文中进行推理。为确保可靠性,ST-Raptor 还引入两阶段验证机制:

  • 语义一致性校验:答案是否与表格内容逻辑一致
  • 结构定位校验否来自正确树节点就是:答案

性能表现:全面超越现有办法

在 SSTQA、WikiTQ-ST、TempTabQA-ST 三个基准上,ST-Raptor 均取得 SOTA 结果:

方法SSTQA 准确率ROUGE-L
GPT-4o62.12%43.86
DeepSeek-V362.16%46.17
ST-Raptor72.39%52.19

示例问题:“2024年市级部门整体预算绩效目标表中,就业服务满意度指标的目标值是多少?”
正确答案:≧90%
多数基线模型回答错误(如“75.0”、“≧95%”),而 ST-Raptor 精准命中。


快速上手

ST-Raptor 拥护本地部署或 API 调用,提供 Gradio 可视化界面:

git clone https://github.com/weAIDB/ST-Raptor.git
cd ST-Raptor
conda create -n straptor python=3.10
conda activate straptor
pip install -r requirements.txt
# 配置模型路径与 API 密钥(见 utils/constants.py)
python main.py  # 批量推理
python gradio_app.py  # 启动 Web Demo

支持输入格式:Excel、HTML、CSV、Markdown 等,输出为结构化问答对。


适用场景

  • 财务审核:自动提取预算表、报销单中的关键指标
  • 医疗质控:从病历模板、检查报告中问答合规项
  • 法律合规:解析合同附件、监管表格中的义务条款
  • 学术研究:问答论文中的实验结果表、统计汇总表
  • 企业报表自动化:HR、销售、仓储等半结构化数据问答

结语

ST-Raptor 经过“视觉理解 + 结构化解析 + 语言推理”的三段式架构,为半结构化表格问答给出了一种无需微调、高精度、强泛化的新范式。其开源不仅推动了表格理解技术的发展,也为工业界落地复杂文档智能献出了实用工具。

项目已开源,欢迎 Star & 试用:
https://github.com/weAIDB/ST-Raptor\ 论文(待发表于 ACM SIGMOD 2026):ST-Raptor: LLM-Powered Semi-Structured Table Question Answering


如需进一步集成到企业系统,项目团队也提供了 API 接口与轻量化部署方案。对于 GPU 资源有限的用户,亦可灵活替换为云端 LLM/VLM 服务。
github:https://github.com/weAIDB/ST-Raptor

相关新闻

  • 树上拓扑序个数小记
  • 2023最新Win10/Win11运行罪恶都市解决方案
  • 2025废气处理/废气治理/环保/污水/分子筛/除臭设备推荐榜:深城环保五星领跑,3 家企业以技术适配解锁多元异味治理场景

最新新闻

  • 4.19周总结
  • 2026华南优质企业管理培训机构综合测评:企业管理培训哪家好 - 品牌测评鉴赏家
  • MCP1701A LDO在STM32低功耗设计中的应用与实战解析
  • 终极Excalidraw虚拟白板指南:为什么它正在取代你的传统绘图工具?
  • 跨省大件货物托运怎么选?全品类快递物流整合渠道对比,大小货手机一键预约上门 - 时讯资讯
  • 大模型应用开发-记忆模块设计:基于助手Agent类型

日新闻

  • 5分钟掌握Python进化算法:Geatpy高性能优化工具完全指南
  • Microchip 24AA044 EEPROM选型与应用全指南:从参数解析到实战编程
  • 华为的鸿蒙到底有多牛?为什么称作遥遥领先?

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号