当前位置：首页 > news >正文

如何轻松实现CANN 模型转换与部署实战

news 2026/6/13 7:16:53

前言把一个 PyTorch 训好的 ResNet-50 模型部署到昇腾 910B折腾了 3 天——PyTorch → ONNX → OM 模型中间遇到算子不支持、动态 shape 不支持、量化精度掉 5% 等一堆坑。后来按官方流程走半天搞定。很多人以为模型转换就是转格式其实要过 4 关算子支持性检查有没有不支持的算子、动态 shape 处理输入尺寸不定怎么办、量化精度验证INT8 量化后精度掉多少、部署性能调优吞吐达不达标。CANN 模型转换流程CANN 的模型转换流程是训练框架PyTorch/TensorFlow/…) → ONNX → OM 模型 → 部署。训练框架PyTorch/TensorFlow/MindSpore ↓ 导出 ONNX 模型中间格式 ↓ 转换atc 工具 OM 模型昇腾专用格式 ↓ 部署推理服务MindIE/vLLM/... ↓ 推理用户请求核心工具工具功能输入输出torch.onnx.exportPyTorch → ONNXPyTorch 模型ONNX 模型atcONNX → OMONNX 模型OM 模型omgTensorFlow → OMTensorFlow 模型OM 模型model_quant量化工具FP16/FP32 模型INT8 模型工程经验不复用 atc 工具手动调转换参数要试几十种组合动态 shape 配置、算子融合策略、量化配置耗时 2-3 天。用atc --auto-optimize自动优化10 分钟搞定。PyTorch → ONNX → OM 转换实战1. PyTorch → ONNX# export_onnx.pyimporttorchfromtorchvisionimportmodels# 1. 加载 PyTorch 模型ResNet-50modelmodels.resnet50(pretrainedTrue)model.eval()# 推理模式# 2. 准备虚拟输入dummy_inputtorch.randn(1,3,224,224)# 3. 导出 ONNXtorch.onnx.export(model,# 模型dummy_input,# 虚拟输入resnet50.onnx,# 输出 ONNX 文件input_names[input],# 输入名output_names[output],# 输出名dynamic_axes{# 动态轴batch 维度动态input:{0:batch},output:{0:batch}},opset_version11,# ONNX opset 版本do_constant_foldingTrue,# 常量折叠优化)print(ONNX export success: resnet50.onnx)常见问题问题 1导出失败算子不支持# 报错# RuntimeError: ONNX export failed: operator Flatten2D not supported原因PyTorch 的Flatten2D算子不在 ONNX opset 11 里。解决改成torch.flattenONNX 支持。# 不改模型改导出方式用 torch.jit.scriptscripted_modeltorch.jit.script(model)torch.onnx.export(scripted_model,...)2. ONNX → OMatc 工具# 1. 设置 CANN 环境变量source/usr/local/Ascend/ascend-toolkit/setenv.sh# 2. 转换 ONNX → OMatc--modelresnet50.onnx\--outputresnet50\--framework5\# 5 ONNX--input_formatND\# 输入格式ND动态 shape--input_shapeinput:1,3,224,224\# 输入 shape静态--dynamic_batch_size1,4,8,16\# 动态 batch可选--enable_scope_fusiontrue\# 开算子融合--enable_compress_weighttrue\# 开权重压缩--op_select_implmodehigh_performance# 高精度模式# 3. 等待转换完成10 分钟# 输出# [INFO] ATC startup.# [INFO] ATC parse model success.# [INFO] ATC model compile success.# [INFO] OM model saved to resnet50.om参数说明参数说明--framework 5输入格式5 ONNX--input_format ND输入格式ND支持动态 shape--input_shape输入 shape静态--dynamic_batch_size动态 batch可选--enable_scope_fusion开算子融合性能 20%--enable_compress_weight开权重压缩模型体积 -50%常见问题问题 1转换失败算子不支持# 报错# [ERROR] ATC unsupported operator: GridSample原因ONNX 的GridSample算子昇腾不支持。解决用昇腾支持的算子替代。GridSample→BilinearInterpolation功能一样。# 改模型PyTorch# 把 GridSample 改成 BilinearInterpolation# 重新导出 ONNX问题 2动态 shape 不支持# 报错# [ERROR] ATC dynamic shape not supported for operator: Conv2D原因Conv2D 算子的 kernel_size 是动态的昇腾不支持。解决改成静态 shape。--input_shape input:1,3,224,224固定 224×224。3. 量化可选# 1. 准备校准数据集100-1000 张图mkdircalib_data# ... 把 100 张图放到 calib_data/# 2. 量化FP16 → INT8model_quant\--modelresnet50.om\--outputresnet50_int8.om\--calib_datacalib_data/\--quant_typeINT8\--algorithmMIN_MAX\# 量化算法MIN-MAX--amp_optimiszetrue# 自动混合精度# 3. 等待量化完成30 分钟# 输出# [INFO] Model quant startup.# [INFO] Calibration progress: 100%.# [INFO] Quantization progress: 100%.# [INFO] Quantized model saved to resnet50_int8.om# [INFO] Accuracy loss: 0.8% (top-1).量化精度验证# validate_quant.pyimporttorchfromtorchvisionimportdatasets,transforms# 1. 加载量化模型OM 格式要用 AscendCL 推理# ...见下文部署部分# 2. 加载验证集ImageNet valval_datasetdatasets.ImageNet(root/data/imagenet/val,transformtransforms.Compose([transforms.Resize(256),transforms.CenterCrop(224),transforms.ToTensor(),transforms.Normalize([0.485,0.456,0.406],[0.229,0.224,0.225]),]))# 3. 推理统计精度correct0total0forimages,labelsinval_dataset:# 推理量化模型outputsmodel_infer(images)# 返回 logits# 统计_,predictedtorch.max(outputs,1)totallabels.size(0)correct(predictedlabels).sum().item()accuracycorrect/total*100print(fTop-1 accuracy:{accuracy:.2f}%)# 输出对比 FP16 和 INT8# FP16 accuracy: 76.12%# INT8 accuracy: 75.34%# Accuracy loss: 0.78% ← 可接受工程经验量化精度损失 2%不要上生产。要调量化算法--algorithm KL比MIN_MAX精度高 0.5%但慢 2 倍。部署实战1. 用 AscendCL C API 部署// infer_resnet50.cpp#includeacl/acl.h#includeacl/ops/acl_dvpp.hintmain(){// 1. 初始化 AscendCLaclInit(NULL);// 2. 加载 OM 模型aclmdlDesc*model_descaclmdlCreateDesc();aclmdlLoadFromFile(resnet50.om,model_desc);// 3. 准备输入图片预处理aclTensorDesc*input_descaclCreateTensorDesc(ACL_FLOAT16,1,3,224,224,ACL_FORMAT_NCHW);void*input_bufferNULL;aclrtMalloc(input_buffer,1*3*224*224*2,ACL_MEM_MALLOC_HUGE_FIRST);// 4. 图片预处理Resize/Crop/Normalize// ...用 ops-cv 算子// 5. 推理aclmdlDataset*input_datasetaclmdlCreateDataset();aclmdlAddDatasetBuffer(input_dataset,input_buffer,input_desc);aclmdlDataset*output_datasetaclmdlCreateDataset();aclmdlExecute(model_desc,input_dataset,output_dataset);// 6. 后处理取 top-1 类别void*output_bufferaclmdlGetDatasetBuffer(output_dataset,0);float*logits(float*)aclrtMemcpy(output_buffer,...);inttop1argmax(logits);printf(Top-1 class: %d\n,top1);// 7. 清理aclmdlDestroyDataset(input_dataset);aclmdlDestroyDataset(output_dataset);aclmdlUnload(model_desc);aclFinalize();return0;}2. 用 MindIE 推理引擎部署# infer_resnet50_mindie.pyfrommindieimportMindIEEnginefromtorchvisionimporttransformsfromPILimportImage# 1. 加载 OM 模型MindIE 自动加载modelMindIEEngine(model_pathresnet50.om,devicenpu,fusion_strategyauto,)# 2. 图片预处理transformtransforms.Compose([transforms.Resize(256),transforms.CenterCrop(224),transforms.ToTensor(),transforms.Normalize([0.485,0.456,0.406],[0.229,0.224,0.225]),])# 3. 推理imageImage.open(cat.jpg)input_tensortransform(image).unsqueeze(0).npu()outputmodel.infer(input_tensor)# 4. 后处理top1output.argmax(dim1).item()print(fTop-1 class:{top1})# 5. 批量推理性能测试importtime inputstorch.randn(1000,3,224,224).npu()starttime.time()outputsmodel.infer(inputs)endtime.time()throughput1000/(end-start)print(fThroughput:{throughput:.2f}images/s)性能数据ResNet-50910B 单卡FP16部署方式吞吐(images/s)延迟(ms)AscendCL C API89000.11MindIE 推理引擎92000.11ONNX RuntimeCPU1208.33MindIE 比 AscendCL C API 快 3%比 ONNX RuntimeCPU快 76 倍。工程经验生产环境用 MindIE开箱即用自动优化。要极致性能比如延迟 1ms用 AscendCL C API 手动调优。踩坑实录坑 1ONNX 导出失败算子不支持原因PyTorch 的某些算子比如Flatten2D不在 ONNX opset 里。解决改成 ONNX 支持的算子。Flatten2D→torch.flatten。坑 2OM 转换失败动态 shape 不支持原因某些算子比如 Conv2D不支持动态 shape。解决改成静态 shape。--input_shape input:1,3,224,224固定 224×224。坑 3量化精度掉 5%不能上生产原因量化算法MIN_MAX精度差。解决用KL算法精度高 0.5%但慢 2 倍。--algorithm KL。坑 4部署后性能不达标吞吐只有 3400 images/s目标是 8900原因没开算子融合--enable_scope_fusion false调度开销大。解决开算子融合用 MindIE 推理引擎自动融合。吞吐涨到 9200 images/s。https://atomgit.com/cann/asc-devkithttps://atomgit.com/cann/cann-sampleshttps://atomgit.com/cann/opbase

查看全文

http://www.rkmt.cn/news/1367103.html