当前位置：首页 > news >正文

小红书与中科院突破：反向学习法实现AI数学推理能力提升11.5分

news 2026/5/27 1:15:13

这项由小红书技术团队与中国科学院自动化研究所联合开展的研究以预印本形式发布于2026年5月论文编号为arXiv:2605.11609。感兴趣的读者可通过该编号在arXiv平台查阅完整原文。当你辅导一个孩子解数学题时你可能遇到过这样的困境如果你提前把答案告诉他他往往只会机械地套用你给出的那条路径完全不愿意自己动脑筋探索其他解法。这种情况下告诉他答案反而害了他——因为他失去了独立思考的机会。现如今AI在学习数学的时候也掉进了完全相同的陷阱。研究团队发现当前一种流行的AI训练方法叫做自蒸馏self-distillation其思路听起来很聪明让AI自己既当学生又当老师给老师版本看正确答案然后让学生版本向老师学习。然而在数学推理这个领域这种方法在多个主流AI模型上几乎全军覆没表现甚至比不用这种方法的基线还差。这是为什么又该怎么修研究团队提出了一个反直觉的解决方案既然向老师学习会有问题那就反着来——主动远离老师的做法。这套方法被命名为反自蒸馏Anti-Self-Distillation简称AntiSD。在五个规模从40亿到300亿参数不等的AI模型上AntiSD不仅让模型以快2到10倍的速度达到原先的训练效果最终准确率更是最多提升了11.5个百分点。一、老师知道答案反而害了学生要理解这个问题的根源先从自蒸馏的工作原理说起。在标准的强化学习训练中AI会不断尝试解题每次答对就得一分答错就不得分。这种方式就像给孩子做判断题——只知道对错不知道哪一步做错了学习效率很低。自蒸馏的出现正是为了解决这个问题。它的做法是拿同一个AI模型扮演两个角色——学生版本正常解题老师版本则在看过正确答案之后对学生写的每一个字词重新打分。学生版本再向老师版本学习从而获得比单纯对错反馈更细致的指导信号。听起来很合理对吧但研究团队发现了一个致命的结构性缺陷。他们分析了老师版本对每一个词的态度结果发现了一个清晰的两极分化模式。当老师版本看过正确答案之后它对某些词语会变得极度自信——比如因此、代入、成立这类词因为它已经知道推导方向是对的这些词在正确推导中自然而然就会出现。研究团队把这类词称为走捷径的词。与此同时老师版本对另一类词则变得特别排斥——比如等等Wait、或许Maybe、换个角度Alternatively。这些词代表着重新审视问题、探索多种可能的思维过程。但老师版本已经知道正确答案了自然觉得这些犹豫的词没有必要。于是标准自蒸馏的实际效果变成了让AI学会避开探索性思维直奔它认为正确的路径。这在数学上是灾难性的因为复杂数学题恰恰需要大量的等等让我换个思路试试。这也解释了为什么研究者们普遍观察到一个现象用自蒸馏训练的AI回答会越来越短——不是因为它变聪明了而是因为它被训练成了不再探索。研究团队用一个信息论工具——逐点互信息Pointwise Mutual InformationPMI——严格证明了这个分析。简单来说这个工具衡量的是知道了答案之后某个词出现的概率是升高了还是降低了。升高的词就是走捷径的词降低的词就是探索性的词。标准自蒸馏奖励前者、惩罚后者方向完全错了。二、反着学远离老师反而找到自己的路找到了问题所在修复思路就直接了当既然老师的信号方向错了那就反过来用。标准自蒸馏是让学生往老师靠近AntiSD则是让学生主动往老师的反方向走。用数学语言表达就是原来是最小化学生和老师之间的差异现在变成了最大化学生和老师之间的差异。这一字之差让每个词的信号方向全部翻转——原来被奖励的走捷径的词现在受到压制原来被惩罚的探索性词语现在得到鼓励。这有点像考试备考时的一个反常策略与其死记老师给的标准答案不如刻意练习那些老师没有强调、但自己容易想不到的解题路径。不过单纯反向学习会带来一个新问题没有一个天然的停止时机。原来向老师靠近是有终点的——靠得足够近就停了。但反向远离不一样理论上可以一直远下去直到出问题。为此研究团队引入了两个附加设计。第一个是选择更合适的差异度量方式。研究团队选择了詹森-香农散度Jensen-Shannon DivergenceJSD而非另一种常见的KL散度。这里有个重要的工程考量在实际训练数据中探索性词语出现的频率比走捷径的词语更高而且有些极端情况下的信号值会达到负20以下非常夸张。JSD的数学特性能自动给探索性词语那一侧的信号设置一个上限约为0.347避免极端值主导整个训练过程。走捷径那一侧则没有上限确保极端的走捷径行为受到强力压制。第二个是熵触发开关。当老师版本自己也变得过度自信——比如它已经完全收敛到某个固定模式每个词都确定无疑——这时候老师和学生之间的差异信号就不再有信息价值都是噪音了。研究团队设计了一个自动监控机制持续追踪老师版本每个词位置上的不确定程度用信息熵衡量。一旦这个不确定程度跌破某个阈值就把反自蒸馏的训练信号关掉等老师的不确定程度恢复正常再重新开启。这种设计参考了电子电路中的施密特触发器原理能有效避免在临界点附近反复开关抖动。整个方法的实现非常轻量。只需要在原有的训练流程中多做一次带有正确答案的前向推理forward pass用来计算老师版本对每个词的概率然后根据公式算出每个词的权重加到原有的训练信号里就行了。没有额外的模型没有额外的数据计算开销几乎可以忽略。三、实验结果效率和准确率双双飙升研究团队在五个主流开源AI模型上进行了完整测试涵盖Qwen3-8B、Qwen3-4B-IT-2507、Olmo3-7B-IT、Olmo3-7B-TK和Qwen3-30B-A3B参数规模从40亿到300亿不等。训练数据使用了DAPO-Math-17k这个数学题数据集共训练200步。评估则在AIME 2024、2025、2026美国数学邀请赛、HMMT 2025哈佛-MIT数学竞赛和MinervaMath五个基准上进行。结果非常一致地呈现出三个规律。第一个规律是点火速度大幅提升。AntiSD从训练第一步就能提供有意义的逐词信号不需要等待稀疏的对错反馈慢慢累积。在Qwen3-4B-IT-2507这个模型上AntiSD仅用大约30步就达到了标准GRPO训练需要150步才能达到的训练奖励水平。换算成倍数AntiSD在不同模型上达到GRPO基线准确率的速度是后者的2到10倍。对于研究者来说训练成本大幅下降意味着可以用同样的算力探索更多方向。第二个规律是最终准确率全面提升。在所有五个模型上AntiSD的最终平均准确率都超过了标准GRPO。提升幅度从最小的2.1个百分点Olmo3-7B-TK这个模型的基线本来就已经很强到最大的11.5个百分点Qwen3-8B。在最难的HMMT 2025竞赛题上Qwen3-8B的得分从39.2%提升到了54.4%提升幅度达到15个百分点。为了验证提升不是靠押宝少数几道题来的研究团队还测试了passk指标也就是用32次机会来回答同一道题看能解出多少道题。AntiSD在32次机会的宽松条件下依然领先GRPO大约7到10个百分点说明它确实解锁了GRPO根本无法解决的题目而不是靠减少随机性来凑分。第三个规律是标准自蒸馏全面崩溃。在所有五个模型上使用正向自蒸馏的结果都比不用自蒸馏的基线差有时差距惊人——Qwen3-8B上标准自蒸馏的平均分是30.6而不用的是57.4差了将近27个百分点。这证实了之前理论分析的预测把有答案的老师的信号方向用错了。研究团队还做了一个有意思的延伸实验在代码编写任务上AntiSD同样让Qwen3-8B在HumanEval上提升1.2个百分点、在MBPP上提升2.3个百分点。虽然提升幅度没有数学任务那么大但方向完全一致说明这个方法的有效性不局限于数学。四、拆解每个零件哪个最重要为了搞清楚到底是哪个设计起了关键作用研究团队做了详细的消融实验——也就是一次只改变一个设计选择看效果如何变化。其中有一个实验最能说明问题如果把老师的正确答案信息完全去掉只让模型基于自己的概率来反向学习会怎样结果是三个模型无一例外地在大约70步内彻底崩溃——训练奖励归零回答越来越长直到超出上限模型进入无法恢复的死循环。这清楚地说明AntiSD有效的关键不是反向学习这个动作本身而是以老师和学生之间的差异作为信号来反向学习。去掉老师的正确答案信号就没有了依托反而会放大模型原本的任何偏向形成正反馈崩溃。另一个有趣的发现是关于熵触发开关的。在Qwen3系列模型上去掉开关后模型确实先跑得更快——在大约40步时就达到了0.97的训练奖励——但随即在90步左右因为老师版本过度自信而崩溃。而在Olmo3-7B-IT模型上同样去掉开关却能撑过全程200步而不出问题。差异来自于这两类模型的初始信息熵水平Qwen3模型起步时每个词的不确定程度大约是0.4纳特距离完全确定的临界点不远Olmo3模型起步更高有足够的余量不需要开关保护。这说明开关起到的是跨模型保险的作用而非针对某个特定模型调整的参数。在具体的数学形式选择上研究团队比较了JSD和KL散度的反向版本。结果显示用KL散度的反向版本在Qwen3-4B-IT-2507上直接失败了平均分只有49.5不仅没有超过GRPO基线甚至在整个训练过程中都无法稳定提升。这验证了之前的分析KL散度在探索性词语那一侧没有上限极端信号值过大导致训练不稳定。此外研究团队还测试了加性合并和乘性合并两种方式把AntiSD的信号加入原有训练信号中。加性方式效果更好理由也很直觉化在对错信号很弱的情况下——比如模型面对一道极难的题几乎所有尝试都失败了——乘性方式会把AntiSD的信号一起缩小到接近零恰恰在最需要探索性引导的时候失去了它的作用。加性方式则不受此影响始终保持独立的贡献。研究团队还验证了一个实用场景能不能在一个已经用标准方法训练饱和的模型上再叠加AntiSD他们从Qwen3-8B的标准训练终点重新出发只再跑50步AntiSD结果在30步内就基本追上了从零开始训练AntiSD整整200步的效果。这说明AntiSD的信号对已经很强的模型依然有价值——它照亮的是那些靠对错反馈永远无法抵达的角落。五、为什么这件事比看起来更重要从技术上来讲AntiSD实际上提供了一个不需要人工标注、不需要额外模型的逐步奖励信号。研究团队在论文中证明了把每一步的信号加总起来恰好等于在知道正确答案之后对整个回答的综合评价。这意味着这个逐步信号在理论上不会改变最优策略的集合只是帮助更快、更准确地找到那些最优策略。更深层的意义在于这项研究从一个实验失败开始——自蒸馏在数学上不管用——然后通过精确的理论分析找到了失败的根源再针对根源设计了一个最小改动的修复方案。整个过程是标准的科学推进路径而得到的结论出人意料地干净只需要翻转一个符号加上一个自动触发的保险就能让一个普遍失败的方法变成一个系统性成功的方法。说到底这项研究揭示的是一个更普遍的道理在学习复杂推理的时候知道应该往哪里走并不总是好事有时候反而需要保护那些还不确定要往哪里走的时刻。探索本身就是价值的来源而任何会压制探索的训练信号都可能在无意间把模型训练成了一个只会背捷径的优等生而不是真正会思考的问题解决者。当前研究的评估范围主要集中在数学推理以及一个初步的代码任务测试。研究团队也坦诚AntiSD的理论分析描述的是每一步的局部信号特性而非整个训练过程的全局收敛保证。多轮对话、更大规模的模型以及更丰富的特权信息形式都是值得继续探索的方向。有兴趣深入了解具体数学推导和实验细节的读者可以通过arXiv:2605.11609查阅完整论文。---QAQ1AntiSD的反自蒸馏为什么反向学习老师反而会更好A标准自蒸馏让AI向看过答案的老师靠近但老师知道答案后会偏爱结论性词汇、压制探索性词汇导致AI越来越不会独立探索。AntiSD把这个信号方向翻转主动压制走捷径词汇、鼓励探索性词汇反而帮助AI保留了解复杂题目所需的多路径搜索能力。Q2AntiSD训练速度快2到10倍意味着什么A意味着同样的算力和时间可以训练出更强的模型或者用更少的资源达到原来的效果。对于需要大量迭代的AI研究团队来说这种效率提升直接降低了训练成本也让更快速地探索不同方案成为可能。Q3AntiSD方法是否可以用在已经训练好的AI模型上继续提升A可以。研究团队验证了在一个已经用标准方法训练到饱和的Qwen3-8B模型上只需额外运行30步AntiSD就基本追上了从头训练AntiSD整整180步的效果。说明这个方法可以作为增强补丁叠加在现有模型上而不必从零开始重新训练。

查看全文

http://www.rkmt.cn/news/1397477.html