当前位置: 首页 > news >正文

CANN/ops-blas STPTTR测试文档

stpttr算子实现

【免费下载链接】ops-blas本项目是CANN提供的高性能线性代数计算以及轻量化GEMM调用算子库。项目地址: https://gitcode.com/cann/ops-blas

概述

BLAS stpttr算子实现。

stpttr(Symmetric Triangular matrix, Packed format To Triangular matrix, Regular storage)算子将 LAPACK 压缩格式(packed format)中的对称三角矩阵展开为按列主序存储的常规二维矩阵。仅写入uplo指定的三角区域,矩阵另一三角及未参与运算的元素保持原值不变。

产品支持情况

产品是否支持
Ascend 950PR/Ascend 950DT
Atlas A3 训练系列产品/Atlas A3 推理系列产品×
Atlas A2 训练系列产品/Atlas A2 推理系列产品×

目录结构介绍

test/stpttr/ ├── CMakeLists.txt // 编译工程文件 ├── README.md // 说明文档 └── arch35/ ├── stpttr_test.cpp // 精度测试 ├── stpttr_golden.h // CPU golden 实现 ├── stpttr_testcases.csv // 精度测试用例表 └── stpttr_config.json // 算子测试配置(指针类型、精度模式等)

算子描述

  • 算子功能:
    将压缩格式三角矩阵AP中的元素按uplo展开到常规矩阵A的对应三角区域:

    • uplo == ACLBLAS_LOWER:复制到A的下三角(含对角),上三角不变
    • uplo == ACLBLAS_UPPER:复制到A的上三角(含对角),下三角不变

    AP为列优先压缩存储,长度为n * (n + 1) / 2Alda × n的列主序矩阵,lda >= max(1, n)n == 0时直接返回成功,不访问缓冲区。

    对应的接口为:

aclblasStatus_t aclblasStpttr( aclblasHandle_t handle, aclblasFillMode_t uplo, int n, const float *AP, float *A, int lda);
参数stpttr 参数说明
参数列表Param.Memoryin/out含义
handleinaclbLAS 库上下文句柄。
uploin三角存储方式:ACLBLAS_UPPER(121)、ACLBLAS_LOWER(122)。
nin方阵维数,须 >= 0;为 0 时立即返回成功。
APdevicein压缩格式输入,<type> 数组,长度 n*(n+1)/2。
Adevicein/out常规输出矩阵,<type> 数组,维度 lda × n;非目标三角保持原值。
ldainA 的主维长度,须满足 lda >= max(1, n)。
  • 算子规格:

    算子类型(OpType)stpttr
    算子输入nameshapedata typeformat
    APn*(n+1)/2floatpacked
    算子输出Alda * nfloatND
    核函数名stpttr_kernel
  • 算子实现:

    Host 侧完成参数校验与 Tiling 计算(按 Vector Core 数切分列块),将 Tiling 数据拷贝至 Device 后,通过stpttr_kernel_do启动 Kernel。Kernel 按列从 GM 上的压缩缓冲区AP分块搬入 UB,再写回 GM 上常规矩阵A的对应三角列段;lda > n时列间存在 stride 间隔。

  • 调用实现
    使用内核调用符<<<>>>stpttr_kernel_do)在aclblas关联的 stream 上异步执行,Host 在返回前同步 stream。

测试用例覆盖

分组用例数覆盖场景
L0 参数校验4未初始化 handle、n<0、lda 过小、非法 uplo
L0 功能13n=0/1/2/4/32/128/512,LOWER/UPPER
L1 规模与 lda18n=8~1024、lda>n(8×12、16×32 等)
L1 特殊数值12全零、大数、负数、inf、nan、极值组合
L1 参数校验8AP/A 空指针、非法 uplo、n=0 与 lda 组合
L1 往返与大规模4strttp→stpttr 往返(32×32)、n=10240

ST 采用 GTest 参数化 +stpttr_testcases.csv/stpttr_config.json,精度模式为EXACT(仅比对有效三角区,其余位置为 sentinel -999)。

编译运行

在本样例根目录下执行如下步骤,编译并执行算子。

  • 配置环境变量
    请根据当前环境上CANN开发套件包的安装方式,选择对应配置环境变量的命令。

    • 默认路径,root用户安装CANN软件包

      source /usr/local/Ascend/cann/set_env.sh
    • 默认路径,非root用户安装CANN软件包

      source $HOME/Ascend/cann/set_env.sh
    • 指定路径install_path,安装CANN软件包

      source ${install_path}/cann/set_env.sh
  • 样例执行

    bash build.sh --ops=stpttr --soc=ascend950 --run

    其中--soc可选参数,用于指定目标硬件平台(与上文「产品支持情况」对应)。按实际硬件选用:

    产品--soc取值
    Ascend 950PR / Ascend 950DTascend950
    Atlas A3 训练系列产品 / Atlas A3 推理系列产品ascend910_93
    Atlas A2 训练系列产品 / Atlas A2 推理系列产品ascend910b

    执行结果如下,说明精度对比成功。

    [PASS] stpttr_test

【免费下载链接】ops-blas本项目是CANN提供的高性能线性代数计算以及轻量化GEMM调用算子库。项目地址: https://gitcode.com/cann/ops-blas

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.rkmt.cn/news/1430197.html

相关文章:

  • 2×300MW发电厂厂用电系统设计
  • SAP F110自动付款配置避坑指南:从FBZP到供应商主数据,一次讲清所有关键点
  • 对比一圈后!2026 最新降AI率平台测评与推荐 - 降AI小能手
  • distilbert-NER完全指南:如何用轻量级模型实现高效命名实体识别
  • 向量引擎API中转站深度测评:如何实现低成本、高并发的向量检索
  • Equalizer APO:3个步骤让你的Windows电脑音频达到专业级水准
  • ELPV数据集:2624张电致发光图像如何提升太阳能电池缺陷检测准确率300%
  • 3步实现CREO到URDF转换:creo2urdf工具让机器人仿真更简单
  • CatPPT技术解析:揭秘Gradient SLERP合并技术打造最强7B模型
  • WorkshopDL专业级跨平台模组下载终极指南:完整解决方案与技术架构深度解析
  • 3大核心功能:League Akari英雄联盟智能工具全面解析
  • Platinum-MD:如何让尘封的MiniDisc设备在现代电脑上重获新生?
  • 给老伙计R720xd升级ESXi 7.0.3,H310卡翻车?别急,90块换H710P搞定!
  • HarmonyOS 离屏截图实战:createFromBuilder 动态生成图片的完整流程
  • Granite-Embedding-97M-Multilingual-R2:IBM革命性多语言嵌入模型,如何在200+语言中实现高效检索?
  • AI生成内容不可篡改存证方案:基于零知识证明的区块链艺术溯源系统(已通过国家网信办备案编号:AIGC-2024-087)
  • BG3模组管理器终极教程:从安装到精通完整指南
  • CANN/asc-devkit矩阵计算实践
  • AI服务合规生死线:Gemini条款生成必须绕过的7个致命漏洞(2024最新监管判例实录)
  • HarmonyOS SnapshotUtil 窗口截图与系统截屏监听:snapshot() 和 onSnapshotListener 详解
  • 创业者必看:柳州螺蛳粉技术培训哪家靠谱?实力全测评 - 资讯纵览
  • 告别密密麻麻!ECharts饼图图例太多怎么优雅分页?scroll配置全解析
  • ControlNet-XS with Stable Diffusion XL完全指南:从安装到生成高质量图像的简单教程
  • 三协议合一:如何用LuckyLilliaBot打造你的全能QQ机器人助手
  • xss-filters实战教程:保护HTML数据与属性的10个最佳实践
  • 鸣潮自动化工具终极指南:如何实现后台智能战斗与资源收集
  • 基于ESP8266与PI算法的公交车智能限速系统设计与实现
  • 日喀则本地专业防水TOP5靠谱推荐:家里漏水不用愁,免费上门不求人。本地最新防水企业资讯:专业师傅持证上门,收费透明无隐藏收费,质保5-10年,售后有保障 - 企业资讯
  • 如何零成本将3D视频变2D?VR-Reversal让你告别VR设备也能享受沉浸体验
  • 房地产AI合规红线清单(含住建部新规+GDPR+生成式AI备案要求),错过即停用