【NPU】【精度】【数据踩踏】AdaptiveMaxpool3D算子indices精度问题-尧图网站建设

📅 发布时间：2026/6/21 7:29:50

AdaptiveMaxpool3D功能说明文档：https://gitcode.com/cann/ops-nn/blob/master/pooling/adaptive_max_pool3d/README.md。

1. 精度异常表现

AdaptiveMaxPool（自适应最大池化）是深度学习领域常见的池化操作，可将任意输入尺寸映射为固定输出尺寸。在NPU上调试AdaptiveMaxpool3D算子时，碰到一些索引与cpu标杆差异的地方，对此问题做一个记录。
简化用例信息如下：输入一个[1,1,1,15,17]张量，通过控制属性参数outputSize为[1,2,17]，输出[1,1,1,2,17]大小的最大值和索引两个张量。

op_name	x_shape	x_dtype	y_shape	y_dtype	argmax_shape	argmax_dtype	outputSize	data_format_str
AdaptiveMaxpool3D	1,1,1,15,17	float16	1,1,1,2,17	float16	1,1,1,2,17	int32	1,2,17	NCDHW

笔者将用例输出的结果同cpu进行比对如下：与cpu的结果比较中最大值输出正确，但索引位置错误，cpu为202，npu为49271。
AdaptiveMaxPool返回结果中，索引是用来记录获取的最大值位置，便于反向传播进行正确路径的梯度更新，以torch_cpu功能作为参考，假设输入张量是[N,C,D,H,W]，那么索引位置会是D*H*W输入尺寸铺平成一维后的索引位置（扁平化绝对索引）。根据输入用例尺寸来看索引位置最大为1*15*17即0~254的范围，不可能是49271，很明显，npu的索引输出存在异常。

2. 定位过程

通过多次运行相同用例shape，发现都在同一位置输入错误索引。我们首先粗略排查索引的计算过程，但并没有发现明显逻辑问题。既然运行是必现的，最简单方式就是找到49271异常值是什么时候出现的。
原先笔者已经将用例简化到[1,1,1,15,17]大小，小量数据可以帮助我们更好进行观察。我们通过从计算索引→搬出结果的反向过程插入DumpTensor(GlobalTensor/LocalTensor, 代码行号, 元素个数)函数重新编译算子运行，可以逐步打印NPU上的Tensor内容值进行观察，发现错误数据第一次出现在上述红框的for循环中Select函数之后。

再往前Select函数的输入Tensor数值打印出来没有明显异常值，因此我们深入分析Select的配置参数和功能逻辑是否存在与预想不一致的地方。在官网文档中发现该接口使用一个8K的预留空间，是一个疑点。
（官网文档：https://www.hiascend.com/document/detail/zh/CANNCommunityEdition/850alpha002/API/ascendcopapi/atlasascendc_api_07_0070.html）

笔者通过搜索InitBuffer函数快速查验一下空间分配情况，这个算子使用了固定大小分配，比较好分析，计算了一下大概为185kb，185+8=193kb！！！这超过了芯片最大提供的192kbub空间大小，这会导致内存空间被踩！！！

// 初始化que pipe->InitBuffer(inputQue, 1, 32 * 1024); pipe->InitBuffer(maxQue, 1, 8 * 1024); pipe->InitBuffer(indexQue, 1, 8 * 1024); // 初始化Tbuf pipe->InitBuffer(cmpMaskBuffer, 512); pipe->InitBuffer(cmpNanMaskBuffer, 512); pipe->InitBuffer(inputTransBuffer, 32 * 1024); pipe->InitBuffer(resetIndexBuf, 4 * 1024); pipe->InitBuffer(nextCmpBuffer, 4 * 1024); pipe->InitBuffer(mulWBuffer, 64 * 1024); pipe->InitBuffer(mulWIdxBuffer, 32 * 1024);

3. 解决方式

单核在进行pipe->InitBuffer在进行192kb空间分配时是按顺序分的。在空间分配时，mulWBuffer的空间申请有一部分作用用于复用计算，我们将其移动到最后进行空间的分配，这样子改动最小化，Select接口的预留的8kb即使踩到mulWBuffer也只涉及到无效数据部分，不影响计算结果。在调整完顺序后重新进行验证，验证结果通过。

// 初始化que pipe->InitBuffer(inputQue, 1, 32 * 1024); pipe->InitBuffer(maxQue, 1, 8 * 1024); pipe->InitBuffer(indexQue, 1, 8 * 1024); // 初始化Tbuf pipe->InitBuffer(cmpMaskBuffer, 512); pipe->InitBuffer(cmpNanMaskBuffer, 512); pipe->InitBuffer(inputTransBuffer, 32 * 1024); pipe->InitBuffer(resetIndexBuf, 4 * 1024); pipe->InitBuffer(nextCmpBuffer, 4 * 1024); pipe->InitBuffer(mulWIdxBuffer, 32 * 1024); pipe->InitBuffer(mulWBuffer, 64 * 1024); //移动到最后

4. 根因

Select接口的使用需要预留8K的Unified Buffer空间，但是原有kernel已经申请了185kb空间，185+8=193kb超过了芯片最大提供的192kbub空间大小，导致Select函数踩到有效数据，输出异常索引值。

5. 启发

1、对于一些可复现异常，可以通过简化输入条件来降低定位的复杂度，通过二分打印数据的变化找到异常引入点。
2、在算子开发中，要考虑到最大的ub内存空间进行合理的分配，留意API接口中容易忽视的约束，部分的指令可能需要预留一部分的ub空间，不然可能会造成内存踩踏。