尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

Attention Sinks and Compression Valleys in LLMs are Two Sides of the Same Coin

Attention Sinks and Compression Valleys in LLMs are Two Sides of the Same Coin
📅 发布时间:2026/7/2 4:56:51

paper: https://arxiv.org/pdf/2510.06477
ICLR 2026

一句话概括

这篇论文想说明:LLM 中的 attention sink 和 compression valley 不是两个孤立现象,而是同一个底层机制的两种表现,这个机制就是 residual stream 中某些 token,尤其 BOS token,出现 massive activations。

更直白地说:模型中间层里,某个特殊 token 的激活值突然变得异常大;这个异常大的向量一方面让很多 attention head 把注意力吸过去,形成attention sink,另一方面又让整层 token 表征在奇异值谱上被一个主方向主导,形成表征压缩。论文认为这两件事本质上是同一枚硬币的两面。

它要解决的问题

之前有两个现象一直比较奇怪。

第一个是attention sink:一些 attention head 会把大量注意力放到 BOS、首 token 或其他语义上不太重要的 token 上。看起来很反直觉,因为模型似乎在“浪费注意力”。

第二个是compression valley:LLM 的中间层表征会突然变得很“低维”,也就是高维 hidden states 的有效秩、熵或信息分布明显下降。看起来像模型在中间层把信息压缩了一次。

以前这两个问题大多是分开研究的。本文的核心问题是:它们有没有共同原因?如果有,这个原因能不能被理论证明、被实验验证?论文明确说,此前 attention sink 已经被和 massive activations 联系起来,但 compression valley 还缺少明确因果机制。

关键概念怎么理解

Massive activations:就是 residual stream 中某些 token 的 hidden state 范数特别大,远大于其他 token。论文里特别关注 BOS token,因为很多模型中 BOS token 在中间层会出现极大的 L2 norm。论文报告,在多个模型中,BOS norm 可在中间层上升到普通规模的 (10^3) 到 (10^4) 量级。

Compression valley:论文用 representation matrix 的奇异值分布来度量压缩。把一层里所有 token 的 hidden states 组成矩阵 (X),如果最大奇异值占据了绝大部分能量,那么矩阵虽然形式上是高维的,但实际信息主要集中在少数方向上,熵就会下降,表现为压缩。论文用 matrix-based entropy、anisotropy 等指标衡量这一点。

Attention sink:论文用 sink score / sink rate 衡量某个 token 被多少 attention head 集中关注,重点看 BOS token。它们设定阈值后统计有多少 head 对 BOS 的注意力达到 sink 标准。

核心理论:为什么 massive activation 会导致压缩

论文的理论核心是 Theorem 1:假设 (x_0) 是 BOS token 的表示,(M=|x_0|^2),其他 token 的总能量是 ®,其他 token 与 BOS 的方向对齐程度是 (\alpha),那么表示矩阵 (X) 的最大奇异值满足:

\sigma_1^2 \ge M + \alpha R

这句话的含义是:只要 BOS token 的范数足够大,它就会强行制造出一个主导奇异值。一旦最大奇异值主导整个矩阵,表示矩阵的能量就集中到一个方向,熵下降,有效维度下降,于是出现 compression valley。论文进一步给出了 dominance、anisotropy 和 entropy 的上界/下界关系,说明 norm ratio 越大,压缩越强。([arXiv][1])

这个理论比较重要,因为它不是只说“我们观察到相关”,而是说明:如果一个 token 的激活范数压倒其他 token,那么谱压缩在数学上几乎不可避免。

实验证据

论文在多个 decoder-only LLM 上做了实验,包括 Pythia 410M/6.9B、LLaMA3 8B、Qwen2 7B、Gemma 7B、Bloom 1.7B 等,并提到实验覆盖 410M 到 120B 参数规模。它们在 GSM8K 的 7.5K 训练样本上统计每一层的 normalized entropy、BOS sink rate 和 BOS token norm。结果是三条曲线高度同步:BOS norm 暴涨时,entropy 掉下去,sink rate 接近 1。([arXiv][1])

论文还看了训练过程,发现这三个现象在 Pythia 的训练早期就一起出现,大约在 step 1k 左右形成,并在之后训练中持续存在。这说明它不是推理时偶然出现的小现象,而像是模型训练过程中很早学出来的一种内部结构。([arXiv][1])

更关键的是消融实验。作者在 massive activations 出现的层,把 MLP 对 BOS token 的贡献置零。结果在 LLaMA3 8B 中,原本 entropy 会掉到 0.02 bits,但消融后保持在 0.4–0.5 bits;sink rate 也保持为 0;BOS norm 不再异常放大。这说明 massive activation 不只是和两个现象相关,而是很可能具有因果作用。([arXiv][1])

论文提出的三阶段理论:Mix–Compress–Refine

论文进一步把这个机制上升为一个 LLM 深度计算理论,叫Mix–Compress–Refine。

第一阶段是Mix,早期层,大约 0–20% 深度。这一阶段 attention 比较分散,模型做广泛的信息混合,把不同 token 的上下文初步整合起来。([arXiv][1])

第二阶段是Compress,中间层,大约 20–85% 深度。massive activations 出现,BOS token 变成高范数 token,导致 representation compression,同时 attention sink 出现,模型减少继续混合,避免过度平滑或无效混合。论文认为这一阶段不是“坏事”,而可能是在压缩冗余信息、保留高层语义结构。([arXiv][1])

第三阶段是Refine,后期层,大约 85–100% 深度。BOS token 的相对优势下降,其他 token 的 norm 上升,token norm 逐渐均衡;表示重新展开,attention pattern 从 sink 转向 identity head、previous-token head、局部位置型 attention,用于做 token-specific refinement。

它解释了什么实际现象

这篇论文还解释了一个常见矛盾:为什么有些任务中间层效果最好,而生成任务往往需要最后层。

论文发现,embedding / classification / retrieval 这类任务更适合中间层,因为中间层压缩后,高层语义结构更集中,线性探针、聚类、检索可能更容易。论文在 ARC、SST-2、MTEB 等任务上观察到,embedding-style 任务常在 25–75% 相对深度达到峰值,并且比早期/晚期层高 10–20%。([arXiv][1])

但generation / next-token prediction不一样。生成需要最后阶段的 token-specific refinement,所以 perplexity 和多选 QA 的 LogitLens 性能通常要到后半段,尤其 Phase 3,才明显提升。也就是说,中间层可能已经有较好的语义表征,但还不够适合直接生成下一个 token。

论文真正成立的贡献

我认为它比较扎实的贡献有三个。

第一,它把attention sink、compression valley、massive activation三个现象放到了同一个机制框架里,而不是孤立解释。这个统一视角有价值。

第二,它对“massive activation 导致 compression”给出了比较清楚的谱分析证明。这个理论部分比单纯画曲线更强。

第三,它做了有针对性的 ablation,说明移除 BOS 上的 massive activation 后,compression 和 sink 都会消失或显著削弱。这让文章从“相关性观察”推进到了“机制性证据”。

需要谨慎的地方

这篇论文很有启发,但不要把它理解成已经完全解释了 LLM 内部计算。它主要研究 decoder-only Transformer,且重点围绕 BOS/special token、residual stream norm、奇异值熵和 attention pattern。不同架构、不同 tokenizer、不同位置编码、不同训练策略下,这套三阶段划分未必完全一致。论文自己也提到 RoPE 模型和非 RoPE 模型在后期 attention pattern 上会有差异。

另外,Mix–Compress–Refine 更像是一个机制假说或解释框架,而不是一个已经能直接提升模型训练/推理效果的算法。它的应用价值可能在后续工作中体现,比如 layer selection、early exit、embedding extraction、模型压缩、activation intervention、attention head 分析等。论文结论也说,它希望帮助连接 head-level mechanisms 和 representation geometry,从而指导更高效、可控的 LLM 设计。

相关新闻

  • UFS 4.1规范的量产烧录:从MIPI M-PHY V4.1到UniPro V2.0的协议适配分析
  • 若依框架整合SM2国密算法:前后端登录加密改造实战
  • 加拿大UPS折扣快递注册打Label流程

最新新闻

  • 计算机毕业设计之基于混合推荐的图书推荐系统的设计与实现
  • 从零发布 npm 包:AI编程工具实战 5 步完成私有仓库配置与版本发布
  • VSCode 多语言调试配置实战:AI编程工具助力 Python/Go/Node.js 3 类项目断点精准命中
  • QCMA:基于Qt框架的PS Vita跨平台内容管理技术解析与实现
  • Synology Video Info Plugin:三步快速安装,打造完美群晖影视库
  • GreaterWMS仓库管理系统:从零到一的5步部署实战指南

日新闻

  • Python Playwright录制功能:从零到一构建自动化测试脚本
  • 如何用开源工具永久保存你心爱的小说:novel-downloader全攻略
  • In-Context Learning不是教知识,而是模式对齐:从5个示例到100个工业级样本的真相

周新闻

  • Windows字体自定义终极方案:No!! MeiryoUI完全指南
  • Deepin Boot Maker:告别命令行,3分钟制作Linux启动盘的智能解决方案
  • Plain Craft Launcher 2:重新定义你的Minecraft游戏体验

月新闻

  • 2026年6月公司网站搭建最新热门渠道测评:四大低成本/零代码平台对比+避坑
  • 【Linux】Linux arm 编译QT程序,出现expected “}“报错
  • 【MATLAB例程】四基站二维AOA定位与距离辅助增强对比仿真。基于角度观测和测距修正的固定目标平面定位精度分析

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号