尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

小模型不一定要从头练!普林斯顿研究:预算有限剪枝完胜,但真正的优势藏在稀疏里

小模型不一定要从头练!普林斯顿研究:预算有限剪枝完胜,但真正的优势藏在稀疏里
📅 发布时间:2026/6/26 5:10:27

如今,大模型赛道一个有趣的趋势是,大家越来越关注“小模型”。无论是出于端侧部署的效率需求,还是为了降低推理成本,一个性能强大、尺寸精悍的小模型,正成为许多团队的“梦中情模”。那么,如何经济高效地获得一个强大的小模型?

ArXiv URL:http://arxiv.org/abs/2606.14150v1

通常有两条路:一是“从头开始”,收集海量数据,扎扎实实地训练一个全新的小模型;二是走“捷径”,找一个现成的、强大的大模型,通过“剪枝”(Pruning)技术,把它“瘦身”成一个小模型。

直觉上,剪枝似乎更讨巧,因为它能继承大模型的“知识”,相当于站在巨人的肩膀上。但这个“巨人”本身也消耗了海量的计算资源才训练出来。这条捷径到底值不值?在严格的资源控制下,它真的比从头训练更好吗?

来自卡内基梅隆大学、纽约大学和普林斯顿大学的最新研究,通过对Llama-3.1-8B进行系统性的剪枝实验,给出了迄今为止最清晰的答案。

核心结论可以浓缩为一句话:在训练预算有限的情况下,剪枝是获得高性能小模型的明确赢家;但如果预算充足,从头训练可以追平甚至超越粗粒度的结构化剪枝,却难以撼动细粒度稀疏剪枝的优势——这揭示了剪枝所传递的知识,并非“钞能力”可以完全替代。

01 “造”个小模型,捷径真的存在吗?

随着Llama、Gemma、Qwen等强大的开源大模型唾手可得,一个实际的问题摆在所有开发者面前:当我们需要一个特定尺寸(比如4B参数)的模型时,是应该从零开始,用数千亿甚至上万亿的Token从头预训练一个,还是直接拿现成的Llama-3.1-8B来“砍一刀”?

剪枝的诱惑力在于,它承诺了一条通往强大小型模型的捷径。理论上,大模型在训练过程中已经学到了关于语言、世界和推理的复杂模式,剪枝操作可以保留这些知识的精华,从而得到一个“出生就在罗马”的小模型。相比之下,从头训练的模型则需要自己从零开始探索和学习。

但这种继承并非没有代价。首先,必须先有一个训练好的大模型作为“父模型”。其次,剪枝后的模型通常也需要一轮“再训练”(retraining)来恢复性能。整个流程的真实成本,需要把父模型的预训练成本也考虑在内。

这就引出了一个悬而未决的关键问题:剪枝带来的优势,究竟只是一个可以被更多训练数据追上的“先发优势”,还是一种无法通过额外数据弥补的“知识转移”?这篇论文的工作,正是为了在严格控制变量的条件下,正面回答这个问题。

02 重新定义问题:剪枝不是压缩,是“初始化”

要进行公平的比较,首先需要一个清晰的定义。过去,我们常将剪枝视为一种模型压缩技术,目的是让大模型变得更小。

而本文的研究人员提出了一个关键的视角转换:将剪枝视为一种初始化(initialization)策略。

也就是说,剪枝后得到的权重,不再被看作是最终成品,而是被当作训练目标小模型的一个“高质量起点”。与之相对的,就是从一个随机生成的权重集合开始训练,即“随机初始化”。

这个视角的转变,让比较的基准变得异常清晰。问题不再是“剪枝后的模型vs原始大模型”,而是:

在拥有相同目标架构、使用相同训练数据流的情况下,采用“剪枝初始化”是否优于“随机初始化”?

为了彻底回答这个问题,研究人员设计了两种严格的“Token匹配”对比实验:

  1. 同等训练预算对比 (Equal training token budget):假设剪枝后的模型需要用50B Token进行再训练。那么,从头训练的随机初始化模型,也只给50B Token的训练数据。这能直接衡量两种初始化策略的优劣。

  2. 同等总预算对比 (Equal total token budget):将剪枝流程的总耗费计算在内。假设父模型预训练用了200B Token,剪枝后再训练用了50B Token,总计250B。那么,从头训练的模型就给予全部250B Token的训练数据。这旨在检验,“钞能力”(更多的训练数据)是否能抹平剪枝带来的优势。

03 实验设计:在 Llama-3.1-8B 上挥舞六把“手术刀”

实验的“手术台”选定为当前最先进的开源模型之一:Llama-3.1-8B。研究人员选择了六种有代表性的剪枝方法,覆盖了从粗到细的不同“粒度”(granularity),如同六把功能各异的“手术刀”。

这些方法主要分为两大类:

  • 结构化剪枝 (Structured Pruning):移除完整的模型组件,比如整个Transformer层(深度剪枝)、注意力头或前馈网络中的通道(宽度剪枝)。这就像从一栋大楼里拆掉一整层或一整根柱子,得到的是一个更小但依然是“标准”的密集架构。代表方法有Minitron-D (深度)、Minitron-W (宽度)、FLAP和Sheared LLaMA。

  • 稀疏剪枝 (Sparse Pruning):不改变模型的宏观架构,而是将单个或小簇的权重参数置为零。这好比保持大楼的框架不变,但把墙壁里的部分钢筋或电线抽掉。这种方法更加灵活,但生成的稀疏模型需要特定的硬件或软件库才能高效推理。代表方法有Wanda和SparseGPT。

实验的核心围绕50%的剪枝率展开,即将8B的Llama-3.1模型压缩到约4B。这是一个业界常用的标准设定,便于横向比较。

04 发现一:预算有限,剪枝完胜

在第一个对比场景——“同等训练预算”下,结论异常明确。

当给予相同的再训练Token数量(例如50B)时,所有六种剪枝方法得到的“剪枝初始化”模型,其性能都稳定地、全方位地优于“随机初始化”的从头训练模型。

上图展示了Minitron-D(一种深度剪枝方法)的结果。紫色线代表剪枝后继续训练的模型(P200-RN),蓝色线代表从头训练的模型(SN)。无论是在验证集损失(越低越好)还是下游任务平均准确率(越高越好)上,紫色线从一开始就处于领先地位,并且在整个再训练过程中始终保持优势。

具体到数字上,使用Minitron-W方法剪枝的模型,在常识问答基准Hellaswag上的准确率比从头训练高出10.2%。对于稀疏剪枝,这种优势同样存在,并且粒度越细(非结构化vs 2:4稀疏),优势越大。

这有力地证明了,父模型传递的知识确实提供了一个强大的起点,让小模型在学习过程中“少走弯路”。

然而,这种优势并非无限。研究人员发现,随着剪枝率的提高(即模型被砍掉的部分越多),剪枝初始化的优势会逐渐减小。当剪枝率达到惊人的81.3%时,剪枝模型的性能就和从头训练基本持平了,甚至在某些指标上略有不如。

这也很符合直觉:当你把父模型砍得只剩骨架时,其蕴含的“知识遗产”自然也就所剩无几了。

05 发现二:预算充足,“钞能力”也买不来稀疏知识

那么,如果给从头训练的模型足够多的数据,它能追上剪枝模型吗?这就来到了第二个对比场景——“同等总预算”。

在这里,故事变得复杂起来,并且揭示了不同剪枝粒度之间的深刻差异。

对于粗粒度的结构化剪枝,答案是“能”。

当从头训练的模型(S250)获得了剪枝全流程所消耗的全部250B Token后,它的性能成功追上甚至反超了剪枝模型(P200-R50)。例如,在使用Minitron-D方法时,S250在所有基准上都优于P200-R50。

这意味着,结构化剪枝带来的“先发优势”,本质上是可以用更多的训练数据来弥补的。

但对于细粒度的稀疏剪枝,答案却是“不能”。

即使从头训练的模型获得了海量数据,它在多数基准上的表现依然与稀疏剪枝后的模型相当,甚至更差。特别是在最细粒度的非结构化稀疏剪枝(Wanda-U)上,剪枝模型在8个下游任务中的6个都保持着领先。

这是整篇论文最令人深思的发现。它强烈暗示,细粒度剪枝所转移的知识,具有某种特殊性,它并非简单地增加训练数据就能学到的。这些分布在亿万权重中的精妙模式,似乎是大模型在海量数据和巨大规模下“涌现”出的独特结构,而从头训练的小模型很难在有限的规模内复现这种结构。

06 粒度之辨:性能与效率的“鱼与熊掌”

综合来看,研究揭示了一个清晰的规律:在相同的剪枝率下,剪枝的粒度越细,保留的父模型性能越多,对从头训练的优势也越大。

  • 非结构化稀疏>2:4稀疏>宽度剪枝>深度剪枝

从性能上看,稀疏剪枝无疑是王者。但性能的优势,却要以效率的牺牲为代价。

这正是实践中“鱼与熊掌”的困境。稀疏模型虽然参数量(非零权重)少了,但其不规则的稀疏结构,在通用硬件(如CPU或没有稀疏计算单元的AI加速器)上并不能带来实际的推理加速。研究中使用的Google TPU v4就无法从稀疏性中获益,导致稀疏模型的训练速度和密集模型几乎一样。

相比之下,结构化剪枝(尤其是深度剪枝)虽然在性能上损失最大,但它产生的是一个标准的、更小的密集模型。这种模型无需任何特殊硬件支持,就能在任何地方实现实打实的内存节省和推理加速。

这就给实践者提出了一个明确的权衡:

  • 追求极致性能:选择细粒度的稀疏剪枝,但需要确保部署环境有专门的硬件(如支持2:4稀疏的NVIDIA A100/H100 GPU)来发挥其效率优势。

  • 追求通用效率:选择结构化剪枝,接受一定的性能损失,换取在各种硬件上都能生效的、可靠的效率提升。

而这篇论文的发现恰好点明了这里的矛盾:恰恰是在追求通用效率的结构化剪枝场景下,其性能优势最容易被“从头训练+海量数据”的模式所取代。

07 结论:一份给实践者的清晰指南

这项研究的价值,在于它超越了“剪枝好不好”的模糊讨论,为“何时选择剪枝、选择何种剪枝”提供了一份清晰、数据驱动的决策指南。

我们可以总结出两条非常实用的建议:

  1. 如果你的团队已经拥有一个强大的预训练大模型,但用于下游任务的训练/微调预算有限:那么,剪枝是你的不二之选。它能最高效地利用父模型的知识,让你在有限的Token预算内获得最强的小模型。这对于大多数资源不是无限的企业和研究团队来说,是一个极具价值的结论。

  2. 如果你的目标是训练一个标准架构的小模型,并且你拥有海量的训练数据预算:那么,从头训练是一个完全可行且有竞争力的选项。在这种情况下,你未必需要一个父模型作为“垫脚石”。

最终,这项工作将剪枝从一个单纯的“压缩工具”,提升到了一个与“训练范式”息息相关的战略选择层面。它告诉我们,大模型中蕴含的知识宝藏,可以通过不同的方式被继承和利用,而理解其中的边界和代价,正是我们在大模型时代“降本增效”的关键所在。小模型不一定要从头练!

相关新闻

  • 高防IP一个月6500还只是起步?聊聊小团队能用的DDoS防护方案
  • Python的__enter__中的处理事务
  • 微软推出两大开发工具:Coreutils 统一命令体验,Dev Config 快速配置开发环境

最新新闻

  • Java静态代码安全审计实战:铲子SAST工具原理、部署与调优指南
  • 电竞比赛主板如何兼顾多卡扩展与性价比?四大品牌2026年实战选购指南
  • Strang估计器:非线性多元SDE在Pearson噪声下的参数估计
  • 操作系统实验一:动态优先权进程调度算法模拟与实现
  • VSAR 信号导入功能说明
  • 抖音网页版直播数据抓取实战:告别复杂配置,一键获取实时弹幕

日新闻

  • Qwen2.5-Turbo百万上下文实战指南:百炼平台长文本处理全解析
  • 怎么监控对标账号更新,2026年作者监控工作流,5款深度对比
  • EdgeRemover:专业级Windows Edge浏览器管理工具,彻底解决顽固软件卸载难题

周新闻

  • Visual C++运行库修复终极指南:5分钟快速解决Windows软件启动错误
  • 手把手教你构建统计局地区经济数据爬虫:从环境搭建到数据持久化全指南
  • 2026多Agent深度解析:用AI团队替代单一模型,四种架构实战落地

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号