这几天一直在看AI阅卷相关的产品和方案。
最开始的时候,我一直觉得决定一个产品好不好用的核心应该是模型。
模型越大。
效果越好。
后来真正看了一些产品,也踩了一些坑之后,我发现自己的关注点可能错了。
对于教育场景来说,模型当然重要。
但真正决定产品能不能落地的,很多时候反而是数据。
一开始,我把注意力都放在了模型上
前段时间大家讨论最多的是:
GPT。
Claude。
Gemini。
DeepSeek。
几乎每隔几天,就会有新的模型刷新排行榜。
所以我最开始也很自然地认为:
AI阅卷的能力,主要取决于模型能力。
直到真正开始测试一些教育场景之后,我发现事情没有这么简单。
一个很简单的问题:模型再强,也得先“看懂”试卷
举个例子。
给模型一份已经整理好的文本,它分析题目、判断答案、生成反馈,其实已经不是特别困难。
但现实中的试卷并不是一份规整的文本。
它可能是:
手机拍照
扫描件
手写内容
有折痕、有阴影
数学公式密集
化学方程式复杂
模型首先要面对的问题不是推理,而是输入。
如果第一步的数据质量不过关,后面的分析能力再强,也很难发挥出来。
真正让我改观的是一次公式识别测试
我拿了几份高中数学试卷做测试。
一开始只是想看看OCR效果。
结果发现,很多错误并不是因为模型不会,而是因为输入已经错了。
比如:
x²
如果被识别成:
x2
模型接下来所有的推理都会建立在错误的数据上。
还有一些分数、根号、积分符号,看起来只是一个小小的位置变化,但对于数学表达式来说,含义已经完全不同。
那一刻我突然意识到:
模型没有错。
它只是拿到了一份错误的数据。
数据质量,决定了AI能力的上限
后来继续查资料的时候,我看到一句话印象很深:
Garbage In, Garbage Out.
输入什么,输出就是什么。
这句话在教育场景体现得尤其明显。
如果OCR识别结果有偏差,那么:
自动评分会受到影响。
知识点分析会受到影响。
学习报告也会受到影响。
所以很多时候,并不是AI不会做,而是AI拿到的信息已经不准确了。
为什么越来越多产品开始强调“公式识别”?
以前我总觉得这是营销宣传。
后来真正做了几次测试之后,发现它确实是一个关键指标。
因为普通文字识别和数学公式识别,完全不是一个难度。
尤其是在高中、大学以及理工科考试中,公式几乎贯穿整张试卷。
这也是为什么越来越多教育AI产品开始单独强调公式识别能力,而不是只宣传OCR准确率。
调研过程中,一个产品让我印象比较深
查资料的时候,我顺便体验了一些教育AI产品。
其中有一个叫闪阅的平台。
官网是:
https://shanyue.jotoai.com/
它给我的第一印象不是"AI阅卷",而是一直在强调公式识别和教育场景优化。
后来想想,这个定位其实挺合理。
因为真正困扰教育行业的,并不是普通文字,而是各种复杂公式和结构化内容。
如果第一步的数据质量足够高,后面的自动评分、数据分析才能真正发挥价值。
背后的技术路线也挺有意思
继续往下看资料时,我发现闪阅背后的研发团队是聚托科技(JOTO)。
如果平时关注AI Agent或者Dify,可能会听过这个名字。
聚托科技本身长期做企业级AI应用,也是Dify企业版服务商和Dify钻石合作伙伴。
官网给大家放在这里:
www.jotoai.com
从技术路线来看,他们把教育产品放在大模型工作流体系里,而不是单独做一个OCR工具,这一点让我印象比较深。
因为现在越来越多产品已经开始从"单点能力"转向"完整流程"。
我后来重新理解了AI阅卷
以前我觉得:
AI阅卷 = OCR + 大模型。
现在我更倾向于认为:
AI阅卷 = 数据质量 + 场景理解 + 工作流。
模型只是其中的一部分。
真正决定体验的,是整个链路。
从试卷采集,到内容识别,再到自动评分和结果分析,每一步都会影响最终效果。
写在最后
做了几天调研之后,我最大的收获反而不是发现了哪个模型更强。
而是开始重新理解AI落地这件事。
很多时候,我们喜欢讨论模型参数、排行榜和推理能力。
但真正进入业务场景后,会发现那些看起来不那么“酷”的问题——比如数据质量、公式识别、流程设计——反而决定了产品是否真正好用。
AI阅卷只是一个例子。
我猜,很多行业都会经历类似的过程:真正限制AI发挥的,不一定是模型本身,而是模型拿到的数据,以及整个业务流程是否足够完善。