Attention Sinks and Compression Valleys in LLMs are Two Sides of the Same Coin-尧图网站建设

📅 发布时间：2026/7/2 4:56:51

paper: https://arxiv.org/pdf/2510.06477
ICLR 2026

一句话概括

这篇论文想说明：LLM 中的 attention sink 和 compression valley 不是两个孤立现象，而是同一个底层机制的两种表现，这个机制就是 residual stream 中某些 token，尤其 BOS token，出现 massive activations。

更直白地说：模型中间层里，某个特殊 token 的激活值突然变得异常大；这个异常大的向量一方面让很多 attention head 把注意力吸过去，形成attention sink，另一方面又让整层 token 表征在奇异值谱上被一个主方向主导，形成表征压缩。论文认为这两件事本质上是同一枚硬币的两面。

它要解决的问题

之前有两个现象一直比较奇怪。

第一个是attention sink：一些 attention head 会把大量注意力放到 BOS、首 token 或其他语义上不太重要的 token 上。看起来很反直觉，因为模型似乎在“浪费注意力”。

第二个是compression valley：LLM 的中间层表征会突然变得很“低维”，也就是高维 hidden states 的有效秩、熵或信息分布明显下降。看起来像模型在中间层把信息压缩了一次。

以前这两个问题大多是分开研究的。本文的核心问题是：它们有没有共同原因？如果有，这个原因能不能被理论证明、被实验验证？论文明确说，此前 attention sink 已经被和 massive activations 联系起来，但 compression valley 还缺少明确因果机制。

关键概念怎么理解

Massive activations：就是 residual stream 中某些 token 的 hidden state 范数特别大，远大于其他 token。论文里特别关注 BOS token，因为很多模型中 BOS token 在中间层会出现极大的 L2 norm。论文报告，在多个模型中，BOS norm 可在中间层上升到普通规模的 (10^3) 到 (10^4) 量级。

Compression valley：论文用 representation matrix 的奇异值分布来度量压缩。把一层里所有 token 的 hidden states 组成矩阵 (X)，如果最大奇异值占据了绝大部分能量，那么矩阵虽然形式上是高维的，但实际信息主要集中在少数方向上，熵就会下降，表现为压缩。论文用 matrix-based entropy、anisotropy 等指标衡量这一点。

Attention sink：论文用 sink score / sink rate 衡量某个 token 被多少 attention head 集中关注，重点看 BOS token。它们设定阈值后统计有多少 head 对 BOS 的注意力达到 sink 标准。

核心理论：为什么 massive activation 会导致压缩

论文的理论核心是 Theorem 1：假设 (x_0) 是 BOS token 的表示，(M=|x_0|^2)，其他 token 的总能量是 ®，其他 token 与 BOS 的方向对齐程度是 (\alpha)，那么表示矩阵 (X) 的最大奇异值满足：

\sigma_1^2 \ge M + \alpha R

这句话的含义是：只要 BOS token 的范数足够大，它就会强行制造出一个主导奇异值。一旦最大奇异值主导整个矩阵，表示矩阵的能量就集中到一个方向，熵下降，有效维度下降，于是出现 compression valley。论文进一步给出了 dominance、anisotropy 和 entropy 的上界/下界关系，说明 norm ratio 越大，压缩越强。([arXiv][1])

这个理论比较重要，因为它不是只说“我们观察到相关”，而是说明：如果一个 token 的激活范数压倒其他 token，那么谱压缩在数学上几乎不可避免。

实验证据

论文在多个 decoder-only LLM 上做了实验，包括 Pythia 410M/6.9B、LLaMA3 8B、Qwen2 7B、Gemma 7B、Bloom 1.7B 等，并提到实验覆盖 410M 到 120B 参数规模。它们在 GSM8K 的 7.5K 训练样本上统计每一层的 normalized entropy、BOS sink rate 和 BOS token norm。结果是三条曲线高度同步：BOS norm 暴涨时，entropy 掉下去，sink rate 接近 1。([arXiv][1])

论文还看了训练过程，发现这三个现象在 Pythia 的训练早期就一起出现，大约在 step 1k 左右形成，并在之后训练中持续存在。这说明它不是推理时偶然出现的小现象，而像是模型训练过程中很早学出来的一种内部结构。([arXiv][1])

更关键的是消融实验。作者在 massive activations 出现的层，把 MLP 对 BOS token 的贡献置零。结果在 LLaMA3 8B 中，原本 entropy 会掉到 0.02 bits，但消融后保持在 0.4–0.5 bits；sink rate 也保持为 0；BOS norm 不再异常放大。这说明 massive activation 不只是和两个现象相关，而是很可能具有因果作用。([arXiv][1])

论文提出的三阶段理论：Mix–Compress–Refine

论文进一步把这个机制上升为一个 LLM 深度计算理论，叫Mix–Compress–Refine。

第一阶段是Mix，早期层，大约 0–20% 深度。这一阶段 attention 比较分散，模型做广泛的信息混合，把不同 token 的上下文初步整合起来。([arXiv][1])

第二阶段是Compress，中间层，大约 20–85% 深度。massive activations 出现，BOS token 变成高范数 token，导致 representation compression，同时 attention sink 出现，模型减少继续混合，避免过度平滑或无效混合。论文认为这一阶段不是“坏事”，而可能是在压缩冗余信息、保留高层语义结构。([arXiv][1])

第三阶段是Refine，后期层，大约 85–100% 深度。BOS token 的相对优势下降，其他 token 的 norm 上升，token norm 逐渐均衡；表示重新展开，attention pattern 从 sink 转向 identity head、previous-token head、局部位置型 attention，用于做 token-specific refinement。

它解释了什么实际现象

这篇论文还解释了一个常见矛盾：为什么有些任务中间层效果最好，而生成任务往往需要最后层。

论文发现，embedding / classification / retrieval 这类任务更适合中间层，因为中间层压缩后，高层语义结构更集中，线性探针、聚类、检索可能更容易。论文在 ARC、SST-2、MTEB 等任务上观察到，embedding-style 任务常在 25–75% 相对深度达到峰值，并且比早期/晚期层高 10–20%。([arXiv][1])

但generation / next-token prediction不一样。生成需要最后阶段的 token-specific refinement，所以 perplexity 和多选 QA 的 LogitLens 性能通常要到后半段，尤其 Phase 3，才明显提升。也就是说，中间层可能已经有较好的语义表征，但还不够适合直接生成下一个 token。

论文真正成立的贡献

我认为它比较扎实的贡献有三个。

第一，它把attention sink、compression valley、massive activation三个现象放到了同一个机制框架里，而不是孤立解释。这个统一视角有价值。

第二，它对“massive activation 导致 compression”给出了比较清楚的谱分析证明。这个理论部分比单纯画曲线更强。

第三，它做了有针对性的 ablation，说明移除 BOS 上的 massive activation 后，compression 和 sink 都会消失或显著削弱。这让文章从“相关性观察”推进到了“机制性证据”。

需要谨慎的地方

这篇论文很有启发，但不要把它理解成已经完全解释了 LLM 内部计算。它主要研究 decoder-only Transformer，且重点围绕 BOS/special token、residual stream norm、奇异值熵和 attention pattern。不同架构、不同 tokenizer、不同位置编码、不同训练策略下，这套三阶段划分未必完全一致。论文自己也提到 RoPE 模型和非 RoPE 模型在后期 attention pattern 上会有差异。

另外，Mix–Compress–Refine 更像是一个机制假说或解释框架，而不是一个已经能直接提升模型训练/推理效果的算法。它的应用价值可能在后续工作中体现，比如 layer selection、early exit、embedding extraction、模型压缩、activation intervention、attention head 分析等。论文结论也说，它希望帮助连接 head-level mechanisms 和 representation geometry，从而指导更高效、可控的 LLM 设计。