当前位置：首页 > news >正文

Arm SMMU缓存机制与地址翻译优化详解

news 2026/6/12 17:23:41

1. SMMU缓存机制概述

在Arm CoreLink MMU-600/700系列系统内存管理单元中，缓存子系统由两部分组成：翻译缓冲单元(TBU)和翻译控制单元(TCU)。TBU包含Micro TLB和Main TLB两级缓存，而TCU则包含Configuration Cache和Walk Cache。这些缓存在地址翻译过程中扮演着不同角色，协同工作以优化内存访问性能。

注意：本文讨论的缓存行为是硬件预定义的，用户无法通过配置改变基本查找和更新顺序，但某些预取机制可以通过配置寄存器进行调整。

2. SMMU缓存查找顺序详解

2.1 标准查找流程

SMMU执行地址翻译时，缓存查找遵循严格的层级顺序：

TBU Micro TLB查找：这是最快的一级缓存，存储最近使用的翻译条目。如果命中，则直接返回翻译结果，后续查找步骤被跳过。
TBU Main TLB查找：如果Micro TLB未命中，则查询容量更大的Main TLB。Main TLB的访问延迟比Micro TLB稍高，但仍远快于访问TCU。
TCU Configuration Cache查找：当TBU两级缓存均未命中时，TCU首先检查Configuration Cache，确认当前流(Stream)的翻译表配置信息。
TCU Walk Cache查找：配置信息确认后，TCU在Walk Cache中查找具体的页表条目。Walk Cache存储多级页表遍历的中间结果。

2.2 内存访问触发条件

当缓存查找未命中时，硬件会自动发起内存访问：

Configuration Table Walk：当Configuration Cache未命中时，TCU从内存读取STE(Stream Table Entry)和CD(Context Descriptor)等配置结构。
Translation Table Walk：当Walk Cache未命中或部分命中时，TCU执行完整的页表遍历，从内存读取各级页表条目。根据ARMv8架构，这可能涉及4级或5级页表访问。

3. 缓存更新行为分析

3.1 TBU缓存更新规则

Micro TLB命中：仅返回翻译结果，不更新任何其他缓存。
Main TLB命中：除了返回翻译结果外，还会将条目插入Micro TLB。这种"回填"机制确保频繁访问的条目能进入更快的一级缓存。
TBU完全未命中：当请求最终由TCU处理后，得到的翻译结果会同时写入Main TLB和Micro TLB。更新顺序是：先Main TLB，后Micro TLB。

3.2 TCU缓存更新规则

Configuration Cache命中：仅用于获取配置信息，不会触发其他缓存更新。
Walk Cache命中：
- 完全命中(叶条目)：TCU将完整翻译结果返回给TBU，由TBU更新其TLB缓存。
- 部分命中(非叶条目)：仅更新Walk Cache中缺失的部分页表条目。
内存访问后更新：
- 成功的Configuration Table Walk会更新Configuration Cache。
- 成功的Translation Table Walk会更新Walk Cache中对应级别的条目。

4. 特殊事务处理机制

4.1 TCU预取操作

当启用预取功能时，TCU在完成当前页翻译后，会自动预取相邻页的翻译信息：

预取操作会执行完整的缓存查找和内存访问流程。
但预取结果仅更新TCU Walk Cache，不会污染TBU的TLB缓存。
这种设计避免了预取可能不使用的条目占据宝贵的TLB空间。

4.2 StashTranslation事务

这是一种特殊的无数据翻译请求，处理规则与常规翻译不同：

缓存查找：与常规翻译相同，会查询所有层级的缓存。
缓存更新：
- 禁止更新Micro TLB，防止推测性条目挤占活跃条目。
- 允许更新Main TLB和TCU缓存，因为这些缓存容量较大。
- 所有更新条目都标记为可替换，不享受特殊保护。
设计考量：Micro TLB通常只有几十个条目，容易被推测访问淹没。而Main TLB可能有数百条目，更能容忍推测性更新。

5. 缓存一致性考虑

虽然本文主要讨论缓存分配时机，但实际系统还需注意：

无效化操作：当页表或配置信息被修改时，软件必须发起相应的缓存无效化(Cache Invalidation)操作。
替换策略：所有缓存都采用伪LRU(最近最少使用)替换算法，用户无法修改此策略。
多核共享：在多个TBU共享TCU的配置中，Walk Cache的更新需要考虑多核一致性。

6. 性能优化建议

基于缓存行为特点，可采取以下优化措施：

关键地址对齐：将频繁访问的地址范围对齐到TLB条目大小(如4KB/2MB/1GB)，减少TLB覆盖。
预取策略选择：
- 对顺序访问模式启用TCU预取。
- 对随机访问模式禁用预取以避免无用的Walk Cache占用。
StashTranslation使用：
- 在预期会访问的地址范围提前发起StashTranslation。
- 避免短时间内大量StashTranslation导致Main TLB抖动。