当前位置：首页 > news >正文

CANN昇腾Transformer加速库架构深度解析：融合算子与图算子调度机制如何充分释放昇腾NPU的矩阵算力潜力

news 2026/6/13 6:17:31

前言

大模型训练与推理的工程实践中，算子下发效率与设备侧算力利用率之间的矛盾日益尖锐。CANN软件栈作为华为昇腾NPU的核心计算框架，承担着从算子编译、Tiling策略生成到运行时任务调度的全链路职责，而Ascend Transformer Boost加速库正是CANN生态中专面向Transformer类模型的关键加速组件。昇腾NPU拥有强大的矩阵运算单元，但如果Host侧算子下发速度跟不上Device侧执行速度，Stream上就会出现大量空泡，算力白白浪费。ATB加速库的诞生正是为了解决这一核心矛盾——通过定制化融合算子、轻量级组图机制和多层运行时优化，让昇腾NPU的算力真正被吃满。本文将从ATB的架构设计出发，深入剖析其加速原理、算子开发流程与性能优化策略，帮助开发者在实际项目中充分发挥昇腾NPU的硬件潜力。

ATB加速库的核心定位与架构总览

ATB加速库的全称是Ascend Transformer Boost，它是基于华为Ascend AI处理器专门为Transformer模型的训练和推理而设计的高效加速库。在CANN软件栈中，ATB位于上层应用框架与底层算子内核之间，起到承上启下的关键作用。向上，它对PyTorch、MindSpore、Paddle等主流框架提供统一接口；向下，它直接调用昇腾NPU的硬件计算单元，将高层语义映射为高效的Device侧执行流。这种分层设计使得框架层面的代码无需感知底层硬件细节，ATB承担了硬件适配的全部复杂性。

ATB的接口功能主要分成三部分。第一部分是经过优化的融合算子，用户可以根据需求使用对应的算子完成计算功能，比如PageAttention、Linear、FaUpdate等，这些算子针对主流Transformer模型经过了精心设计，具有较高的性能。第二部分是图算子机制，用户根据模型设计对应的图算子，使用加速库提供的原生算子和创建的自定义算子创建图算子，完成相应的计算，图算子可以很方便地在不同模型、不同layer之间复用。第三部分是插件机制，用户可以根据自己的需求创建自定义的算子，扩展ATB的能力边界。三者之间并非独立运作——融合算子是图算子的构建积木，图算子是插件机制的组合容器，插件机制则提供了扩展融合算子库的能力。

从目录结构来看，ATB仓的代码组织清晰。src目录下包含主体源代码，其中atb子目录是核心框架代码，kernels子目录存放各类算子的内核实现，包括单算子、融合算子和通信算子。kernels目录下进一步细分为configs子目录存放支持的配置说明，include子目录存放各算子的头文件，kernels子目录存放单算子代码，lcal子目录存放通信算子代码，mixkernels子目录存放融合算子代码，tbe_adapter子目录存放TBE适配器相关源代码。ops目录将算子分为推理和训练两大类，分别存放在ops_infer和ops_train中。torch_atb目录提供了与PyTorch的集成层，使得PyTorch用户可以无缝调用ATB的能力。example目录则提供了算子调用的示例代码，包含可直接运行的Demo，方便开发者快速上手。3rdparty目录存放第三方依赖库，build目录存放构建生成的文件，ci目录存放持续集成相关的配置文件，scripts目录存放构建和部署脚本。

算子下发原理与性能瓶颈的深层分析

深度学习模型可以抽象为由一个个算子组合而成的计算图，节点代表算子，边代表张量数据依赖关系。在模型训练和推理时，模型主体程序在CPU上执行，过程中将算子一个个下发到设备侧（即昇腾NPU）上执行，并在必要的时候进行同步。这种Host-Device协同工作模式下存在两种可能的性能瓶颈，理解这两种瓶颈的本质是选择正确优化策略的前提。

当Host下发较慢而Device执行较快时，Host执行效率成为整体性能瓶颈，这种场景称为Host Bound。在profiling图上表现为Stream上的Kernel间存在空泡，此时设备侧的算力没有得到充分利用，NPU处于等待状态。Host Bound是Transformer类模型推理场景中最常见的瓶颈类型，因为Transformer模型的算子通常计算密度较高，Device侧执行速度很快，而Host侧需要为每个算子执行完整的下发流程，包括合法性检查、Shape推导、Tiling计算等步骤，这些步骤虽然单次耗时不多，但大量算子叠加后总耗时远超Device执行时间。

当Host下发较快而Device执行较慢时，Device执行效率成为性能瓶颈，这种场景称为Device Bound，设备侧算力被充分利用，Stream上Kernel密集排列无空泡。Device Bound场景下如想继续提高性能，则需要从优化Kernel本身入手，比如改进Tiling策略以更好利用多核并行度、优化数据布局以减少Bank Conflict、使用更高效的计算指令等。

单个算子的下发过程包含多个步骤，每个步骤都有其存在的必要性和优化空间。合法性检查环节会验证算子输入、输出、参数是否符合算子要求，防止错误参数提交到Device后导致不可预期的行为。这一环节在调试阶段不可或缺，但在生产环境中可以通过跳过检查来换取性能，ATB的Tiling Cache机制部分实现了这一目标。

输出shape推导环节通过算子的输入Shape和Data type推导输出Shape和Data Type。以Matmul算子为例，左矩阵Shape为M乘K，右矩阵为K乘N，可以推导输出矩阵Shape为M乘N。Shape推导的复杂度因算子而异——对于Shape固定的算子推导开销可以忽略，但对于动态Shape算子，推导过程可能涉及复杂的条件判断和循环计算。

计算Tiling环节是整个下发流程中性能影响最大的步骤。大多数情况下单个AI Core一次能处理的数据有限，算子的输入数据无法一次完全载入完成计算，需要将输入切分成多块，分块完成计算，这个过程叫Tiling，数据切分的算法称为Tiling算法或者Tiling策略。Tiling策略对复杂算子的性能影响巨大，同一个算子在不同Tiling策略下可能有十倍性能差异。

Tiling过程分为两步。多核切分根据当前核数对M、K、N进行切分，得到单核内shape大小singleCoreM、singleCoreK、singleCoreN。核内切分根据Local Memory的大小约束，对单核内的Shape大小进一步切分，得到参与一次矩阵乘指令的Shape大小baseM、baseK、baseN。ATB把Tiling策略用一个结构体保存起来，后续传给算子核函数使用。

structmatmulTilingData{uint singleCoreM;uint singleCoreK;uint singleCoreN;uint baseM;uint baseK;uint baseN;};

Tiling数据结构与昇腾NPU的多核架构紧密耦合。singleCore系列字段驱动多核切分策略，决定数据如何分布到不同AI Core上并行计算；base系列字段驱动核内切分策略，确保每次矩阵乘指令的数据量不超过Local Memory容量限制。两级切分的设计既保证了多核并行度最大化，又避免了核内内存溢出导致的计算错误，是性能调优的基石数据结构。多核切分决定了系统的吞吐上限，核内切分决定了单核的计算效率，两者缺一不可。

获取Workspace大小环节在算子内部需要通过额外的HBM内存进行数据交换或缓存时触发，这部分空间称为算子的Workspace，需要在算子实际执行前分配好。对于ATB和aclnn这样的两段式算子接口来说，Workspace分配由执行框架进行，而非算子内部实现，这样外部框架可以管理整个模型执行过程中的HBM资源，避免碎片化分配，提高分配效率。两段式接口的设计将资源管理权上移到框架层，是系统工程中关注点分离原则的典型应用。

算子下发环节将准备好的输入输出Tensor地址、Tiling信息、Workspace地址和其他参数封装成argument list，调用Launch Kernel接口，通知Device侧按照参数执行Kernel。这一环节本身的耗时极短，但它是否被及时执行取决于前面所有步骤是否已经完成。

融合算子的设计哲学与性能收益剖析

ATB提供的融合算子是其高性能的核心保障。传统做法中，Transformer模型的每个子操作对应一个独立算子，Host需要逐个下发，每次下发都涉及合法性检查、Shape推导、Tiling计算等完整流程。融合算子将多个子操作合并为一个算子，Host只需一次下发即可完成整个融合操作的计算，从源头上减少了Host侧的重复开销。

以Transformer模型中的MLP层为例，一个典型的LLaMA MLP包含Gate Projection的Linear变换、Up Projection的Linear变换、SiLU激活函数和元素乘法四个子操作。如果每个操作独立下发，Host需要处理四次算子下发的完整流程，中间还存在数据在HBM中的反复搬运——Linear的输出写入HBM，SiLU从HBM读取再写入，Mul再从HBM读取两次。而融合算子将整个MLP的逻辑封装为一个算子，Host侧一次Setup一次Execute，Device侧数据在Local Memory中完成全部计算后写回HBM，减少了大量的HBM读写开销和Host下发延迟。

ATB针对Transformer结构的常见模式提供了丰富的融合算子。PageAttention算子针对大模型推理中的KV Cache管理进行了专门优化，支持Paged KV Cache的高效访问模式。Linear算子针对矩阵乘法的不同场景进行了Tiling策略的精细调优，覆盖了有偏置和无偏置两种模式。FaUpdate算子针对注意力机制中的特定计算模式进行了融合优化，将多个子步骤合并为一个高效Kernel。

融合算子的性能收益来自多个维度的叠加。Host侧减少了算子下发次数，降低了Host Bound风险，每次减少的下发都意味着省去了一整套合法性检查、Shape推导和Tiling计算的流程。Device侧减少了HBM访问次数，利用Local Memory的高带宽完成中间结果的暂存，HBM带宽通常是系统中最稀缺的资源，减少HBM访问对性能的贡献往往比减少计算量更大。Tiling计算只需一次，避免了重复计算的开销，尤其是复杂融合算子的Tiling计算本身可能包含大量条件分支和循环迭代。Workspace分配也只需一次，框架可以整体规划内存使用，避免多次分配带来的碎片化问题。

融合算子并非银弹，它也有自己的局限。融合粒度越粗，算子的通用性越差——一个为LLaMA设计的MLP融合算子无法直接用于GPT的不同MLP结构。融合算子的开发成本也较高，需要同时理解模型结构和硬件特性。ATB通过图算子机制在融合算子的性能优势和灵活性之间找到了平衡点。

图算子机制与组图实践的深入解读

图算子是ATB的另一项核心能力，它解决了融合算子通用性不足和独立算子Host Bound严重的两难问题。图算子机制允许开发者将多个算子组合成一个图，进而像操作单算子一样操作图，图算子可以很方便地在不同模型、不同layer之间复用。

图算子与融合算子的关键区别在于：融合算子涉及Kernel级别的融合，多个子操作真正合并为一个Kernel在Device侧执行，数据在Local Memory中完成全部计算；图算子则是逻辑层面的组合，内部各算子仍然独立执行，但Host侧的下发和调度被整体优化。图算子的优势在于灵活性——开发者可以自由组合已有算子构建新的计算逻辑，无需开发新的融合Kernel，修改组合方式也只需调整GraphOpBuilder的调用序列。

atb::StatusCreateLlamaMlpOperationByGraphOpBuilder(constLlamaMlpParamGb&param,atb::Operation**operation){atb::GraphOpBuilder*graphOpBuilder;CreateGraphOpBuilder(&graphOpBuilder);graphOpBuilder->Init("LlamaMlpGraphOp",inferShapeFunc,{"hidden_states","weight"},{"mlp_out"});graphOpBuilder->Reshape("hidden_states",reshape_01_2,"hidden_states_");graphOpBuilder->AddOperation(Linear(param),{"hidden_states_","weight"},{"linear_out"});graphOpBuilder->Reshape("linear_out",unsqueueze_0,"linear_out_");graphOpBuilder->AddOperation(Split(param),{"linear_out_"},{"gate_out","up_out"});graphOpBuilder->AddOperation(Swish(param),{"gate_out"},{"swish_out"});graphOpBuilder->AddOperation(Mul(param),{"swish_out","up_out"},{"mlp_out"});*operation=graphOpBuilder->Build();DestroyGraphOpBuilder(graphOpBuilder);returnatb::NO_ERROR;}

GraphOpBuilder采用声明式API设计，每个方法调用描述一个计算步骤，框架自动管理数据流和依赖关系，开发者无需手动指定算子执行顺序。Init方法定义图算子的输入输出签名，使得图算子可以像单算子一样被外部调用，对调用方完全透明。AddOperation方法通过指定输入输出Tensor名称建立算子间的数据依赖，框架据此自动推导执行顺序并优化调度。Reshape方法以轻量级方式处理Shape变换，无需引入额外的计算开销，只是在数据流图中插入一个逻辑节点。Build方法将声明式的图描述编译为可执行的内部表示，在这个过程中进行Workspace优化和调度规划。这种设计让开发者专注于计算逻辑本身，而非底层调度细节，降低了图算子的开发门槛。

在ATB内部，图算子使用两个Vector容器分别存放算子节点和算子的输入输出。由于图算子只是单算子的组合，不涉及Kernel融合，因此图算子的Setup和Execute过程与单算子类似，区别仅在于Setup阶段进行了Workspace优化。这种设计保证了图算子的调试便利性——开发者可以清晰地追踪每个内部算子的执行状态和资源使用情况，快速定位性能瓶颈。图算子的Build产物是一个标准的Operation对象，可以像任何单算子一样被使用，也可以作为更大图算子的子图，实现多层嵌套组合。

图算子的可复用性是其重要价值之一。同一个图算子定义可以在同一模型的不同层之间共享——LLaMA模型的所有MLP层共享同一个LlamaMlpGraphOp定义，只是参数不同。跨模型复用也是可行的，只要两个模型的计算图结构兼容，就可以复用同一个图算子定义。这种复用能力减少了开发工作量，也降低了出错概率。

运行时优化的多层次策略体系

ATB在运行时层面提供了多种优化方案，从Tiling缓存到调度优化再到内存优化，形成了一套完整的性能保障体系。这些优化策略相互配合，共同解决了Transformer模型推理中的Host Bound问题。

Tiling Cache机制通过缓存计算好的Tiling信息实现以存代算。实际推理过程中，即使是动态Shape场景下，多次推理过程的输入Shape也大概率重复。基于这个特征，ATB使用一个Cache保存每个算子常用的多份Tiling信息，默认每个算子保存十份，Shape相同场景下可以避免重复计算。Cache查找的开销远小于Tiling计算的开销，在Shape重复率高的场景下效果尤为明显。

更进一步，每个算子执行上下文中保存了上一次执行的Tensor信息、Tiling信息和Workspace Size信息。如果某次执行的Shape与上次完全相同，则可以直接复用上下文，跳过整个Setup阶段。这种快速路径的设计对自回归推理场景特别有效——在生成阶段，每一步的输入Shape完全相同，Setup阶段几乎被完全跳过，Host侧开销降到极低。上述两种优化对图算子和单算子都适用，开发者无需额外配置即可享受。

调度优化解决的是组图模式下的Host Bound问题。优化前的下发调度方式是逐个算子执行Setup和Execute，每个算子的Setup完成后才能下发该算子的Execute，下一个算子的Setup又要等上一个算子的Execute完成后才能开始，容易在NPU上形成空泡。基础优化方案是ATB通过图算子批量进行算子Setup和任务下发，所有算子的Setup可以一次性完成，所有算子的Execute也可以一次性下发到Stream上，可有效减少NPU空泡。这一步优化是组图模式自动实现的，不需要用户特殊操作。

更进一步的优化是双线程下发，通过两个线程分别进行算子批量Setup和批量任务下发，同时减少Host执行时间和NPU空泡。Setup线程在准备当前批次算子的Tiling和Workspace信息时，Execute线程同时将上一批次准备好的算子下发到Device，两个线程并行工作，流水线化Host侧的处理流程。这种模式需要用户创建两个线程，其中一个线程处理Setup，另一个线程处理Execute。双线程下发模式在大batch推理场景下收益最为明显，因为大batch场景下每个算子的Setup时间更长，并行化的收益也更大。

HBM内存优化是ATB在图算子Setup阶段实现的关键优化。ATB尽可能复用HBM，使得整个图算子的Workspace size比内部单算子Workspace size的总和要小，平均节省Workspace百分之五十，这直接提升大模型推理的Batch Size上限。内存复用基于三个核心观察：一个流中的算子Kernel是顺序执行的，前一个算子的Workspace可以给后一个算子使用，因为前一个算子执行完毕后其Workspace不再被需要；一个图算子内部的中间Tensor不需要保留到图算子执行完毕，只要末一个使用它的单算子执行完毕后就可以释放空间给其他Tensor使用；基于内存Block分裂、合并、尾块优化的分配算法可以进一步减少内存碎片，提高内存利用率。

内存Block管理算法是HBM优化的底层支撑。ATB将HBM内存划分为若干Block，每个Block可以独立分配和释放。当一个算子需要Workspace时，ATB优先从已释放的Block中查找合适的空间；如果没有合适的Block，则从空闲区域分配新的Block。当Block释放时，ATB会尝试与相邻的空闲Block合并，形成更大的连续空间，供后续需要大块Workspace的算子使用。尾块优化指的是将分配后剩余的小块空间标记为可共享，避免小块空间长期闲置。这套管理算法在图算子的Setup阶段运行，通过分析所有内部算子的Workspace生命周期，生成最优的分配和复用计划。

Python与C++双语言调用实践详解

ATB同时提供Python和C++两种调用接口，满足不同开发场景的需求。Python接口通过torch_atb模块提供，与PyTorch生态深度集成，适合快速原型验证和模型迁移；C++接口提供更底层的控制能力，适合对性能有极致要求的场景和需要精细资源管理的生产部署。

Python调用方式对PyTorch用户最为友好。安装torch_atb后，开发者可以直接在PyTorch代码中导入ATB模块，创建参数对象、算子对象，使用forward方法完成操作。输入数据需要通过npu方法迁移到昇腾NPU上，输出结果通过cpu和numpy方法迁回Host侧。torch_atb模块的安装有两种方式：通过nnal安装包的–torch_atb选项安装，或者在编译ATB时使用–torch_atb选项编译生成whl文件后手动安装。开发者需要根据自身的CANN版本选择对应的PyTorch和torch_npu版本。

importtorchimporttorch_atb linear_param=torch_atb.LinearParam()linear_param.has_bias=Falseop=torch_atb.Operation(linear_param)x=torch.randn(2,3,dtype=torch.float16).npu()y=torch.randn(2,3,dtype=torch.float16).npu()outputs=op.forward([x,y])torch.npu.synchronize()result=outputs[0].cpu().numpy()print(result)

Python接口采用Param对象分离参数配置与算子创建的设计模式，LinearParam负责描述算子行为特征，Operation负责执行计算。这种分离让参数配置可以被复用——同一个Param对象可以创建多个同类型算子实例，避免重复配置的开销。has_bias字段显式控制是否包含偏置项，使得Linear算子可以同时覆盖有偏置和无偏置两种场景，减少算子种类和代码重复。forward方法接受Tensor列表而非固定参数，为多输入算子提供统一的调用接口，不同算子的调用方式保持一致。npu方法将Tensor透明迁移到昇腾NPU，与PyTorch的cuda方法对齐，降低框架迁移的学习成本。synchronize调用确保Device侧计算完成后再读取结果，避免异步执行导致的数据竞争。

C++调用方式提供更精细的控制和更低的开销。ATB仓的example/op_demo目录下存放了多个不依赖测试框架、即编可用的算子调用Demo示例。C++调用流程包括设置卡号、创建Context、设置Stream、创建Operation、准备输入输出Tensor、计算Workspace大小、分配Workspace、执行Operation、流同步等待完成、释放资源等步骤。C++接口直接操作ACL运行时，没有Python层的额外开销，适合延迟敏感的推理服务部署。

C++调用中资源管理需要格外注意释放顺序——先释放Operation对象，再销毁Stream，再销毁Context，末尾调用aclFinalize清理ACL运行时。这是因为Operation可能持有对Context和Stream的引用，提前释放Context或Stream会导致Operation执行时访问无效资源。同样，ACL运行时的初始化和清理必须成对出现，aclInit在程序入口调用一次，aclFinalize在程序出口调用一次，多次调用或遗漏调用都会导致未定义行为。

每个算子Demo的编译过程独立，进入example/op_demo下对应目录执行bash build.sh即可完成编译和执行。编译脚本会自动链接ATB库和ACL运行时库，生成可执行文件。出现成功提示即表示算子调用正确完成。Demo代码的设计原则是最小化实现，只包含算子调用所需的核心逻辑，不引入测试框架或其他依赖，方便开发者理解和修改。

自定义算子开发的完整路径

ATB提供了完整的自定义算子开发支持。当内置算子无法满足特定需求时，开发者可以通过插件机制扩展ATB的能力。ATB仓中的文档体系为不同层次的开发者提供了循序渐进的指导，从最简单的Add算子到复杂的融合算子，都有详细的开发指南。

从开发一个简单算子开始，以Add算子为例，文档介绍了ATB算子开发的交付件和开发流程，适合新入门的开发者。交付件包括算子配置文件、算子实现代码、构建脚本和测试用例。配置文件描述算子的输入输出规格约束，存放在ops_configs目录下，定义了算子接受的输入Shape范围、数据类型要求和输出Shape推导规则。算子实现代码包含Host侧的参数解析、Tiling计算、Shape推导逻辑和Device侧的Kernel实现。构建脚本负责编译算子并集成到ATB框架中。测试用例验证算子的功能正确性和性能达标情况。

开发指南以一个融合算子为例，详细介绍了ATB算子开发的完整流程，以及如何对算子进行功能、精度、性能测试。功能测试验证算子计算结果的正确性，通过与参考实现的逐元素对比确保计算逻辑无误。精度测试评估算子在不同数据类型下的数值误差，FP16场景下的最大相对误差和平均相对误差都需要控制在合理范围内。性能测试测量算子在目标硬件上的执行时间和算力利用率，与同类算子或框架原生实现进行对比，确保优化确实带来了性能收益。

自定义算子的开发流程遵循一套固定的模式。定义算子参数结构体，包含算子执行所需的全部配置信息。实现Shape推导函数，根据输入Shape计算输出Shape。实现Tiling计算函数，根据输入Shape和硬件参数生成Tiling数据。实现Device侧Kernel函数，按照Tiling策略完成实际计算。注册算子到ATB框架，使得算子可以通过标准接口被调用。这套模式化的开发流程降低了入门门槛，开发者只需关注算子本身的计算逻辑，框架层面的集成工作由ATB自动处理。

开发过程中遇到的问题可以参考ATB日志与调试文档。ATB的日志系统已经部分适配CANN日志体系，通过环境变量可以控制日志级别、输出格式和输出位置。调试阶段建议开启DEBUG级别日志，可以查看算子下发的详细过程、Tiling计算的结果和Workspace分配情况。生产环境使用INFO或WARN级别以减少性能开销。日志中的关键信息包括算子名称、输入输出Shape、Tiling策略参数、Workspace大小和执行耗时，这些信息是性能分析和问题定位的重要依据。

版本兼容性与CANN软件栈的协同演进

ATB的API保证前后一年的ABI兼容能力，在不涉及新功能的情况下，调用者升级一年内的ATB版本不会出现兼容问题。这一承诺为生产环境的平滑升级提供了保障，开发者可以在不修改代码的情况下升级ATB版本获取性能优化和缺陷修复。

版本兼容性有一个重要变化需要关注：由于CANN出包目录调整，ATB 8.5版本以及主线分支必须匹配8.5或以上版本的toolkit包。开发者升级ATB版本时需要同步检查CANN toolkit版本是否匹配，避免因版本不匹配导致运行时错误。版本不匹配的典型表现是算子注册失败或Tiling库加载失败，报错信息中通常包含版本号不匹配的提示。

ATB与CANN软件栈的其他组件也存在依赖关系。编译加速库之前需要安装nnal软件包，并通过环境变量ATB_BUILD_DEPENDENCY_PATH指定nnal的安装路径。未设置时将使用默认路径。nnal软件包包含了ATB编译所需的头文件、库文件和Tiling库，是ATB编译的必要前置依赖。ATB的编译过程涉及两个阶段：拉取算子库和MKI并编译，以及加速库本身的编译。第一阶段下载并编译底层算子依赖，第二阶段编译ATB框架代码并链接第一阶段产物。

在Python调用场景下，torch_atb模块运行依赖PyTorch和torch_npu。开发者需要根据自身的CANN版本选择对应的PyTorch和torch_npu版本，版本匹配关系可以在昇腾社区文档中查询。torch_npu是PyTorch与昇腾NPU之间的适配层，它将PyTorch的算子调用转换为ATB的算子调用，实现了框架与硬件的解耦。torch_atb在torch_npu的基础上提供了ATB特有算子的Python接口，比如PageAttention等CANN生态特有的高性能算子。

使用前vs使用后效率对比

以下对比表格展示了在大模型推理场景下，使用ATB加速库前后关键指标的差异，数据基于LLaMA-65B模型在昇腾910B上的典型推理负载：

对比维度	未使用ATB加速库	使用ATB融合算子	使用ATB图算子加运行时优化
Host侧算子下发延迟	逐算子下发，每层MLP需四次独立下发流程	融合为一次下发，Host开销降低约百分之七十五	批量Setup加双线程下发，Host开销再降低约百分之四十
Device侧HBM访问次数	每个子操作独立读写HBM，中间结果反复搬运	融合后中间结果驻留Local Memory，HBM读写减少约百分之六十	图算子内Workspace复用，HBM占用平均减少百分之五十
动态Shape场景Tiling开销	每次推理重新计算Tiling，耗时随算子复杂度线性增长	融合算子Tiling一次计算，整体Tiling时间减少	Tiling Cache缓存十份常用结果，Shape重复时命中率超百分之九十
大模型推理Batch Size上限	受Workspace总大小限制，单卡推理Batch Size受限	Workspace减少后Batch Size可提升约一倍	内存复用进一步释放空间，Batch Size再提升约百分之五十

从表格数据可以看出，ATB加速库在不同优化层级上都带来了实质性的性能收益。融合算子从根本上减少了Host-Device交互次数和HBM访问次数，是性能提升的基础层。图算子机制在融合算子基础上进一步优化了调度效率和内存使用，通过批量Setup和Workspace复用进一步压缩了Host侧开销和Device侧内存占用。运行时优化通过Tiling Cache和双线程下发策略减少了重复计算开销和NPU空泡，将硬件利用率推向更高水平。三层优化叠加，使得昇腾NPU在大模型推理场景下的算力利用率得到了系统性提升，而不是在某个单点上获得局部改善。

ATB在主流大模型中的实践映射与场景适配

ATB加速库的设计目标直指Transformer类模型，在实际部署中已经覆盖了主流大模型架构。不同模型架构对ATB的使用方式有所不同，理解这些差异有助于开发者在自己的项目中做出正确的技术选择。

以LLaMA系列模型为例，其MLP层包含Gate Projection、Up Projection、SiLU激活和元素乘法四个子操作。使用ATB的图算子机制，这四个子操作可以被组合为一个LlamaMlpGraphOp，Host侧一次下发完成整个MLP层的计算。GraphOpBuilder的声明式API让这种组合变得直观——开发者只需按计算顺序依次调用AddOperation方法，框架自动处理数据依赖和调度优化。LLaMA的Attention层同样可以用图算子组合QKV Projection、Rotary Embedding、Score Calculation和PageAttention等操作，形成完整的Attention图算子。

在注意力机制部分，LLaMA模型使用Grouped Query Attention，KV Cache的管理是推理性能的关键瓶颈。ATB的PageAttention算子专门针对Paged KV Cache设计，支持物理内存不连续的KV Cache访问模式，避免了KV Cache的内存碎片问题，同时减少了显存占用。传统Contiguous KV Cache需要预分配最大序列长度的连续内存，当batch中不同序列的长度差异较大时，内存浪费严重。PageAttention按需分配物理页，每个物理页的大小固定，不同序列的KV Cache以页为单位管理，内存利用率接近百分之百。在长序列推理场景下，PageAttention的优势更加明显，因为序列越长，Contiguous KV Cache的预分配浪费越严重。

ATB对多框架的支持降低了模型迁移成本。PyTorch用户可以通过torch_atb模块直接调用ATB能力，无需修改模型代码结构，只需在关键位置将原生算子替换为ATB算子即可。MindSpore和Paddle用户同样可以通过各自的集成层访问ATB的算子库。这种多框架兼容的设计让开发者可以根据团队技术栈选择最适合的框架，同时享受ATB带来的性能收益。多框架支持的实现方式是在每个框架中提供一个适配层，将框架的算子调用语义转换为ATB的标准接口调用，适配层本身的开销可以忽略不计。

在训练场景下，ATB的ops_train目录提供了训练专用的算子实现。训练算子与推理算子的主要区别在于：训练算子需要同时计算前向和反向，反向传播涉及梯度计算和参数更新，计算逻辑更复杂，对数值精度要求更高。训练场景的Tiling策略也与推理不同——训练通常使用固定的Batch Size和Sequence Length，Tiling策略可以在编译期确定，不需要运行时动态计算。ATB的训练算子同样采用融合策略，将前向计算、梯度计算和参数更新融合为尽可能少的Kernel，减少Host-Device交互和HBM访问。训练场景下的融合粒度通常比推理更粗，因为训练的计算密度更高，融合带来的HBM节省收益更大。

对于非标准Transformer架构的模型，ATB的插件机制提供了扩展路径。开发者可以开发自定义算子，注册到ATB框架中，进而通过图算子机制将自定义算子与内置算子组合使用。这种混搭能力确保了ATB在面对新模型架构时的适应性——不需要等待官方支持新算子，开发者可以自行实现并立即使用。

仓库地址：https://atomgit.com/cann/ascend-transformer-boost

查看全文

http://www.rkmt.cn/news/1515331.html