当前位置: 首页 > news >正文

提升BERT模型效率与容量的新方法:Pyramid-BERT

近年来,自然语言处理(NLP)领域许多性能最佳的模型都建立在BERT语言模型之上。BERT模型在大规模(未标注)公共文本语料库上进行预训练,编码了单词序列的概率。由于BERT模型一开始就掌握了语言的整体知识,因此只需相对较少的标注数据,就能针对特定任务(如问答或机器翻译)进行微调。

然而,BERT模型体量庞大,基于BERT的NLP模型可能运行缓慢,对于计算资源有限的用户来说甚至慢到难以接受。其复杂性也限制了可处理的输入长度,因为其内存占用随输入长度的平方而增长。

在今年计算语言学协会(ACL)的会议上,本文作者及其同事提出了一种名为Pyramid-BERT的新方法。该方法能在几乎不损失准确性的前提下,减少基于BERT模型的训练时间、推理时间和内存占用。减少的内存占用也使BERT模型能够处理更长的文本序列。

基于BERT的模型将句子序列作为输入,并输出整个句子及其各个单词的向量表示(嵌入)。然而,文本分类和排序等下游应用仅使用完整的句子嵌入。为了使基于BERT的模型更高效,该方法尝试在网络的中间层逐步消除冗余的单个单词嵌入,同时尽量减少对完整句子嵌入的影响。

将Pyramid-BERT与几种最先进的BERT模型效率优化技术进行比较,结果显示,该方法能将推理速度提高3到3.5倍,而准确率仅下降1.5%;在相同速度下,现有最佳方法的准确率损失为2.5%。此外,当将此方法应用于专为长文本设计的BERT变体Performers时,能将模型的内存占用减少70%,同时甚至提高了准确性。在此压缩率下,现有最佳方法的准确率会下降4%。

标记的处理过程

输入BERT模型的每个句子都被分解为称为“标记”的单位。大多数标记是单词,但有些是多词短语、子词部分、缩写的单个字母等。每个句子的开头由一个特殊的标记(称为CLS)来标示。

每个标记通过一系列编码器(通常在4到12个之间),每个编码器为每个输入标记生成一个新的嵌入向量。每个编码器都有一个注意力机制,用于决定每个标记的嵌入应反映多少由其他标记携带的信息。

当标记通过一系列编码器时,它们的嵌入会包含越来越多关于序列中其他标记的信息,因为它们会关注那些同样也在整合越来越多信息的其他标记。当标记通过最终的编码器时,CLS标记的嵌入最终代表了整个句子。但它的嵌入也与句子中所有其他标记的嵌入非常相似。这正是该方法试图消除的冗余。

核心思路

基本思路是,在网络中的每个编码器层,保留CLS标记的嵌入,但从其他标记的嵌入中选择一个具有代表性的子集(即核心集)。

嵌入是向量,因此可以解释为多维空间中的点。理想情况下,为了构建核心集,我们会将嵌入分类为等直径的簇,并选择每个簇的中心点(质心)。

然而,构建一个跨越神经网络层的核心集问题是NP难问题,意味着其耗时将长得不切实际。

作为替代方案,该论文提出了一种贪心算法,每次从核心集中选择n个成员。在每一层,我们取CLS标记的嵌入,然后在表示空间中找到距离它最远的n个嵌入。我们将这些连同CLS嵌入一起添加到核心集中。接着,我们找到那些与核心集中已有任一点的最小距离最大的n个嵌入,并将它们添加到核心集中。

我们重复这个过程,直到核心集达到所需的大小。这被证明是足够接近最优核心集的近似。

最后,论文还探讨了每一层核心集应该多大。作者使用指数延迟函数来确定从一层到下一层的衰减程度,并研究了在选择不同的衰减率时,准确性与加速或内存减少之间的权衡关系。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.rkmt.cn/news/87960.html

相关文章:

  • 安全审计平台:运营商数字化转型的必选项与国内优质厂商全景
  • 2025年12月昭昭医考资料深度评测:专业性与服务体验如何? - 品牌测评鉴赏家
  • VDD_EXT应用全解:原理、限制与低功耗设计优化
  • 基于MATLAB的RFID防碰撞算法仿真
  • 2025 年度 Deepseek 知识库部署服务商全景报告:专属本地化交付方案及 AI 知识库部署方案商专项解析 - 品牌2026
  • 2025年去痘印产品哪款最能打?专家实测+用户反馈给出真实答案 - 资讯焦点
  • 2025 年 12 月管道电预热工程厂家权威推荐榜:专业设备与高效施工,热力管道电预热工程一站式解决方案精选 - 品牌企业推荐师(官方)
  • 盘点2025年超纯水器/实验室超纯水器/国产超纯水器口碑好/性能好/质量好/品质好的生产企业 - 品牌推荐大师
  • 成都工程造价公司排名前五,你知道几家? - 百誉集团
  • 2025 年知识库部署服务商全攻略:AI 知识库部署方案商企业私有化部署服务通俗指南与能力测评 - 品牌2026
  • 2025 年快速卷帘门厂家最新推荐榜,聚焦企业技术实力、产品品质与高效服务能力深度剖析 - 品牌鉴赏师
  • 2025年国产均质机厂家实力排名:技术领跑品牌推荐 - 品牌推荐大师1
  • 排名前10的AI文献综述工具,选对了效率翻倍! - 百誉集团
  • 品牌在AI搜索中失声?成都奇林智媒的AI GEO解决方案,助你成为AI推荐的首选答案 - 奇林智媒GEO
  • 2025年湖南防静电地坪材料与水性环氧地坪材料公司推荐 - myqiye
  • 出海企业如何实现合规高效全球雇佣?Safeguard Global名义雇主EOR提供一站式解决方案 - 品牌2025
  • 2025年稳压器制造商权威推荐榜单:家用稳压器/电梯稳压器/机床稳压器源头厂家精选 - 品牌推荐官
  • zz llamaindex和langchain使用对比
  • 2025 年企业智能 BI 私有化部署厂商推荐 :BI 私有化方案商、本地私有化厂商如何助力企业重构数据决策体系 - 品牌2026
  • SAP-MM采购申请批导程序-BAPI_PR_CREATE
  • 办公室下午茶小包装零食推荐:我工位抽屉里那套“更轻负担”的 Fixbody 清单 - AIEO
  • 2025陕西优质短视频拍摄公司TOP5权威推荐:本地企业获客 - 工业品牌热点
  • 2025比较好的手表OEM生产厂家TOP5测评:甄选优质伙伴 - 工业推荐榜
  • HMO奶粉的科学突破与金领冠珍护铂萃的六维超凡喂养力
  • 从零玩转RT-Thread(19):
  • 用du命令数据构建实时磁盘监控仪表盘
  • 想转行网络安全?这是你最需要的一份系统性学习路线与进阶攻略
  • 安装配置fish
  • PHPCompatibility:轻松解决PHP版本兼容性问题的终极工具
  • 政务工作的救星ChatPPT:演讲稿生成PPT 真的超棒!