大模型推理加速核心：KV Cache 复用机制与内存布局优化-尧图网站建设

📅 发布时间：2026/7/2 2:36:15

大模型推理加速核心：KV Cache 复用机制与内存布局优化

一、推理延迟背后的"隐形账单"：KV Cache 容量瓶颈

在大模型推理的延迟链条中，首 Token 延迟（Time To First Token，TTFT）与单 Token 生成延迟（Time Per Output Token，TPOT）是两个核心指标。当模型参数规模突破 7B 后，Pre-fill 阶段的 KV（Key-Value）状态缓存计算往往占据了 TTFT 的 60% 以上。

KV Cache 的本质是一组显存中的键值对张量。对于 LLaMA 风格的模型，每层 Self-Attention 需要缓存(batch_size, num_heads, seq_len, head_dim)的 Key 和 Value。以 13B 模型、4096 序列长度、BF16 精度为例，单次 full-context 推理的 KV Cache 占用即超过 2.6 GB。当并发上升到 32 路请求时，单卡 H800（80 GB）显存中超过 80 GB 被 KV Cache 占据，留给模型权重的空间所剩无几。

这揭示了一个残酷事实：推理系统的瓶颈正在从"算力"转向"存储"。KV Cache 的分配、复用与淘汰策略，直接决定了系统的吞吐上限。

二、从 Multi-Head 到 Grouped-Query：KV Cache 结构的演进

flowchart TD A[Self-Attention 层] --> B{注意力机制类型} B -->|MHA| C[Q: n_heads × d<br/>K: n_heads × d<br/>V: n_heads × d] B -->|MQA| D[Q: n_heads × d<br/>K: 1 × d<br/>V: 1 × d] B -->|GQA| E[Q: n_heads × d<br/>K: n_kv × d<br/>V: n_kv × d] C --> F[KV Cache = 2 × n_heads × d × seq_len<br/>内存压力: 极高] D --> G[KV Cache = 2 × 1 × d × seq_len<br/>精度损失: 不可忽视] E --> H[KV Cache = 2 × n_kv × d × seq_len<br/>n_kv ∈ &#40;1, n_heads&#41;] H --> I[L3.1-70B: n_heads=64, n_kv=8<br/>KV 缩减 87.5%] H --> J[Qwen2-72B: n_heads=64, n_kv=8<br/>同等效果]

Multi-Query Attention（MQA）将 KV Head 数量压缩至 1，直观上减少了 KV Cache 占用，但在长文本场景下注意力质量下降明显。Grouped-Query Attention（GQA）将 KV Head 分组共享，每组 4~8 个 Query Head 共用一对 KV Head，在精度与显存之间找到了工程最优解。

以 LLaMA-3.1-70B 为例，64 个 Attention Head 仅保留 8 个 KV Head，KV Cache 存储量从 MHA 的 100% 降至 12.5%。这并非理论空谈——在 8×A100 集群上的实测表明，GQA 在 8192 长度的 input 下，TTFT 从 MHA 的 320ms 降至 210ms，且 Perplexity 评估中未见统计学显著差异。

三、PagedAttention：KV Cache 的分页式管理

传统 contiguous KV Cache 分配方式存在严重的显存碎片问题。PagedAttention（由 vLLM 提出）将 KV Cache 切分为固定大小的 Block，通过虚拟地址映射实现非连续物理存储。

# PagedAttention 核心：Block Table 管理 class BlockTable: """ 每个序列维护自己的 Block Table，记录逻辑块到物理块的映射。 物理块全局统一管理，跨请求复用。 """ def __init__(self, block_size: int, num_gpu_blocks: int): self.block_size = block_size # 每块 Token 数，典型值 16 self.free_blocks = list(range(num_gpu_blocks)) # 空闲物理块队列 self.seq_tables: dict[int, list[int]] = {} # seq_id → 物理块列表 def allocate(self, seq_id: int, num_tokens: int) -> bool: """为新序列或 Decode 阶段分配物理块""" needed = (num_tokens + self.block_size - 1) // self.block_size if len(self.free_blocks) < needed: return False # OOM，触发抢占 allocated = [self.free_blocks.pop() for _ in range(needed)] self.seq_tables[seq_id] = allocated return True def fork(self, parent_id: int, child_id: int) -> bool: """Copy-on-Write：子序列复用父序列的物理块，仅在写入时拷贝""" if parent_id not in self.seq_tables: return False # 共享物理块引用，增加引用计数 parent_blocks = self.seq_tables[parent_id] self.seq_tables[child_id] = list(parent_blocks) # COW 语义 self._inc_refcount(parent_blocks) # 原子操作，防止并发释放 return True def _inc_refcount(self, blocks: list[int]): """引用计数递增——写入时的安全保证""" for blk in blocks: self.block_refcount[blk] += 1 # int32 原子操作 def free(self, seq_id: int): """释放时减少引用计数，仅 count=0 时才归还物理块""" for blk in self.seq_tables[seq_id]: self.block_refcount[blk] -= 1 if self.block_refcount[blk] == 0: self.free_blocks.append(blk) del self.seq_tables[seq_id]

Block Table 带来的优势不限于内存利用率。共享前缀（System Prompt）场景下，所有请求复用同一组物理块，6 KB 的 System Prompt 在多请求并发时不会重复存储，实测内存节省可达 40%~60%。Beam Search 与并行采样时的 Copy-on-Write 语义，使候选序列的分叉操作仅需一次指针拷贝而非整个 KV Cache 的数据搬运。

四、适用边界：哪些场景不需要 KV Cache 优化

Fully Attention-free 架构（如 Mamba、RWKV）：状态空间模型（SSM）的固定大小隐藏状态替代了随序列增长的 KV Cache，无需分页管理。在这些模型上引入 PagedAttention 只会增加工程复杂度而无益处。

极短序列（< 512 Token）：当序列长度足够短时，KV Cache 碎片化管理的 overhead（Block Table 查询、引用计数维护）可能超过 contiguous 分配方式，导致延迟轻微劣化。实测 256 以下长度，contiguous 分配 TPOT 反而优于 PagedAttention 约 3%~5%。

单路推理 + 大显存：仅跑一条请求且显存充足时，contiguous 分配因其简单直接的 Kernel 实现反而更高效。PagedAttention 的 Kernel 需要额外的 block 间 merge 操作，在单路场景下是一种不必要的抽象层开销。

FP8/E4M3 KV Cache：8-bit 量化 KV Cache 将存储需求再降 50%，此时显存瓶颈缓解，PagedAttention 带来的提升空间缩小。但量化误差在 32K+ 长文本时累积明显，应通过混合精度策略在关键层保留 FP16 KV Cache。

五、总结

KV Cache 优化的切入点包括三个层面。架构层：GQA 通过 KV Head Grouping 在不牺牲注意力质量的条件下缩减 75%~87% 的 KV 存储量，是当前 7B+ 模型的标配。管理策略层：PagedAttention 的分页式管理将显存利用率从 contiguous 的不足 50% 提升至接近 100%，且 Block 级 COW 在共享前缀和并行采样场景下有额外收益。精度层：FP8 KV Cache 量化可进一步缩减 50% 存储，但需要逐层精度校准以控制长文本误差。

选型建议：中大规模并发（50+ 请求）必选 PagedAttention 或类似分页策略；单路长文本推理优先考虑量化方案；极短序列与 SSM 架构不需要 KV Cache 优化。落地时应从实际的并发量与显存约束出发，选择最合适的组合策略。