做了几天AI阅卷调研，我发现真正限制AI的不是模型，而是数据-尧图网站建设

📅 发布时间：2026/6/26 14:39:14

这几天一直在看AI阅卷相关的产品和方案。

最开始的时候，我一直觉得决定一个产品好不好用的核心应该是模型。

模型越大。

效果越好。

后来真正看了一些产品，也踩了一些坑之后，我发现自己的关注点可能错了。

对于教育场景来说，模型当然重要。

但真正决定产品能不能落地的，很多时候反而是数据。

一开始，我把注意力都放在了模型上

前段时间大家讨论最多的是：

GPT。

Claude。

Gemini。

DeepSeek。

几乎每隔几天，就会有新的模型刷新排行榜。

所以我最开始也很自然地认为：

AI阅卷的能力，主要取决于模型能力。

直到真正开始测试一些教育场景之后，我发现事情没有这么简单。

一个很简单的问题：模型再强，也得先“看懂”试卷

举个例子。

给模型一份已经整理好的文本，它分析题目、判断答案、生成反馈，其实已经不是特别困难。

但现实中的试卷并不是一份规整的文本。

它可能是：

手机拍照
扫描件
手写内容
有折痕、有阴影
数学公式密集
化学方程式复杂

模型首先要面对的问题不是推理，而是输入。

如果第一步的数据质量不过关，后面的分析能力再强，也很难发挥出来。

真正让我改观的是一次公式识别测试

我拿了几份高中数学试卷做测试。

一开始只是想看看OCR效果。

结果发现，很多错误并不是因为模型不会，而是因为输入已经错了。

比如：

x²

如果被识别成：

模型接下来所有的推理都会建立在错误的数据上。

还有一些分数、根号、积分符号，看起来只是一个小小的位置变化，但对于数学表达式来说，含义已经完全不同。

那一刻我突然意识到：

模型没有错。

它只是拿到了一份错误的数据。

数据质量，决定了AI能力的上限

后来继续查资料的时候，我看到一句话印象很深：

Garbage In, Garbage Out.

输入什么，输出就是什么。

这句话在教育场景体现得尤其明显。

如果OCR识别结果有偏差，那么：

自动评分会受到影响。

知识点分析会受到影响。

学习报告也会受到影响。

所以很多时候，并不是AI不会做，而是AI拿到的信息已经不准确了。

为什么越来越多产品开始强调“公式识别”？

以前我总觉得这是营销宣传。

后来真正做了几次测试之后，发现它确实是一个关键指标。

因为普通文字识别和数学公式识别，完全不是一个难度。

尤其是在高中、大学以及理工科考试中，公式几乎贯穿整张试卷。

这也是为什么越来越多教育AI产品开始单独强调公式识别能力，而不是只宣传OCR准确率。

调研过程中，一个产品让我印象比较深

查资料的时候，我顺便体验了一些教育AI产品。

其中有一个叫闪阅的平台。

官网是：

https://shanyue.jotoai.com/

它给我的第一印象不是"AI阅卷"，而是一直在强调公式识别和教育场景优化。

后来想想，这个定位其实挺合理。

因为真正困扰教育行业的，并不是普通文字，而是各种复杂公式和结构化内容。

如果第一步的数据质量足够高，后面的自动评分、数据分析才能真正发挥价值。

背后的技术路线也挺有意思

继续往下看资料时，我发现闪阅背后的研发团队是聚托科技（JOTO）。

如果平时关注AI Agent或者Dify，可能会听过这个名字。

聚托科技本身长期做企业级AI应用，也是Dify企业版服务商和Dify钻石合作伙伴。

官网给大家放在这里：

www.jotoai.com

从技术路线来看，他们把教育产品放在大模型工作流体系里，而不是单独做一个OCR工具，这一点让我印象比较深。

因为现在越来越多产品已经开始从"单点能力"转向"完整流程"。

我后来重新理解了AI阅卷

以前我觉得：

AI阅卷 = OCR + 大模型。

现在我更倾向于认为：

AI阅卷 = 数据质量 + 场景理解 + 工作流。

模型只是其中的一部分。

真正决定体验的，是整个链路。

从试卷采集，到内容识别，再到自动评分和结果分析，每一步都会影响最终效果。

写在最后

做了几天调研之后，我最大的收获反而不是发现了哪个模型更强。

而是开始重新理解AI落地这件事。

很多时候，我们喜欢讨论模型参数、排行榜和推理能力。

但真正进入业务场景后，会发现那些看起来不那么“酷”的问题——比如数据质量、公式识别、流程设计——反而决定了产品是否真正好用。

AI阅卷只是一个例子。

我猜，很多行业都会经历类似的过程：真正限制AI发挥的，不一定是模型本身，而是模型拿到的数据，以及整个业务流程是否足够完善。