当前位置: 首页 > news >正文

vLLM推理引擎教程6-Nsight Systems性能分析

1、概念

我们需要通过推理引擎极致地优化推理的性能,所以必不可少需要一个性能分析工具。

本文介绍Nvidia Nsight Systems,它时一个低开销的系统级性能分析器。它的核心设计目标是回答一个关键问题:“我的应用程序在运行过程中,时间到底花在了哪里”。

Nsight Systems专注于应用程序的行为,它通过收集代码在CPU和GPU上的执行细节,生成一个跨整个系统的时间线视图,让开发者能够清晰地看到线程活动、GPU内核执行、内存拷贝、API调用等事件之间地因果关系和时序关系。

2、安装

目标:在linux服务器上跟踪应用程序的执行,在windows上进行可视化分析。

下载地址:https://developer.nvidia.com/nsight-systems/get-started

Windows安装:

linux安装:

Linux安装命令:

sudo rpm -ivh NsightSystems-linux-cli-public-2025.6.1.190-3689520.rpm

Linux端验证成功:

nsys --version

返回结果:

3、Python版本GPU性能测试

python测试代码:

import torch import time print("Creating tensors on GPU...") x = torch.randn(10000, 10000).cuda() y = torch.randn(10000, 10000).cuda() print("Performing matrix multiplication...") start = time.time() z = torch.mm(x, y) torch.cuda.synchronize() end = time.time() print(f"Done! Time: {end - start:.2f} seconds") print(f"Result shape: {z.shape}")

执行命令日志:

(vllm_python312) [work@iZuf6hp1dkg31metmko4pbZ test]$ nsys profile --trace=cuda,nvtx,osrt --output=matrix_mult_trace --force-overwrite true python test_gpu.py Collecting data... Creating tensors on GPU... Performing matrix multiplication... Done! Time: 0.10 seconds Result shape: torch.Size([10000, 10000]) Generating '/tmp/nsys-report-1078.qdstrm' [1/1] [========================100%] matrix_mult_trace.nsys-rep Generated: /data/xiehao/workspace/code/test/matrix_mult_trace.nsys-rep

将nsys-rep文件在Windows端通过GUI打开:

上面的python代码涉及GPU操作的有3部分:

- x复制到GPU,32ms

- y复制到GPU,31ms

- mm操作,47ms

http://www.rkmt.cn/news/111598.html

相关文章:

  • Kubernetes Debug 专用镜像实践指南
  • 基于VUE的企业信息管理系统 [VUE]-计算机毕业设计源码+LW文档
  • LobeChat能否实现段落缩写功能?长文本精炼助手
  • unity中简单控制角色移动及动画实例--以及角色动画抖动残影拖影处理
  • 【小白笔记】二叉树的前序,中序,后序,层序遍历(递归与迭代)
  • 10390_基于Springboot的影城订票管理系统
  • Java真的不行了,一天收到586份简历
  • Advanced Database Cleaner - WordPress数据库清理优化插件
  • 训练 分心驾驶行为识别模型 ,支持从分类任务到目标检测任务的多种应用场景。17类驾驶员疲劳驾驶状态检测数据集的训练及应用 YOLOV8疲劳驾驶检测系统
  • 【论文阅读笔记】多实例学习手段 Diverse Density(DD):在特征空间中寻找正概念的坐标
  • CSDN 技术分享:浏览器指纹检测、识别与防护全流程解析
  • qt-lambda信号槽机制
  • a5 4444444444
  • 2025年南宁头部环氧酚醛厂家推荐,环氧玻璃钢/石墨烯涂料/无溶剂环氧涂料/环氧酚醛/环氧酚醛设计找哪家 - 品牌推荐师
  • A6 PRE接口发布
  • FastAPI+VUE3创建一个项目的步骤模板(三)
  • 现代软件工程 - 2025秋 - 期末总结
  • 基于SpringBoot的超能驾校线上学习管理系统的设计与实现(毕业设计项目源码+文档)
  • 什么是可信计算?基于可信计算的网络安全自适应防护关键技术及应用
  • 失眠的代价与认知的重塑:通宵测完 Nano Banana Pro,我只想说——这TM是未来!
  • 量子计算突破:零级魔法态蒸馏显著降低开销与噪声
  • Arbess从基础到实践(16) - 集成GitHub实现Java项目构建并自动化Docker部署
  • JavaScript——js基础(详细 全面),适合新手小白,收藏这篇就够了
  • Part 11|模块划分并非越细越好,关键在于明确职责边界
  • 日志打印配置:logback-spring.xml配置;info和error完全区分了,并且按时间拆分了
  • 2025年优测压测平台与JMeter效率成本对比及行业实践
  • 基于微信小程序的跑腿系统的设计与实现毕业设计项目源码
  • Arbess从基础到实践(15) - 集成GitLab实现Java项目自动化构建并多主机部署
  • 基于SpringBoot的宠物成长监管系统的设计与实现(毕业设计项目源码+文档)
  • 敏捷测试团队转型,从质量守门员到质量赋能者