尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

vLLM推理引擎教程6-Nsight Systems性能分析

vLLM推理引擎教程6-Nsight Systems性能分析
📅 发布时间:2026/6/20 1:01:09

1、概念

我们需要通过推理引擎极致地优化推理的性能,所以必不可少需要一个性能分析工具。

本文介绍Nvidia Nsight Systems,它时一个低开销的系统级性能分析器。它的核心设计目标是回答一个关键问题:“我的应用程序在运行过程中,时间到底花在了哪里”。

Nsight Systems专注于应用程序的行为,它通过收集代码在CPU和GPU上的执行细节,生成一个跨整个系统的时间线视图,让开发者能够清晰地看到线程活动、GPU内核执行、内存拷贝、API调用等事件之间地因果关系和时序关系。

2、安装

目标:在linux服务器上跟踪应用程序的执行,在windows上进行可视化分析。

下载地址:https://developer.nvidia.com/nsight-systems/get-started

Windows安装:

linux安装:

Linux安装命令:

sudo rpm -ivh NsightSystems-linux-cli-public-2025.6.1.190-3689520.rpm

Linux端验证成功:

nsys --version

返回结果:

3、Python版本GPU性能测试

python测试代码:

import torch import time print("Creating tensors on GPU...") x = torch.randn(10000, 10000).cuda() y = torch.randn(10000, 10000).cuda() print("Performing matrix multiplication...") start = time.time() z = torch.mm(x, y) torch.cuda.synchronize() end = time.time() print(f"Done! Time: {end - start:.2f} seconds") print(f"Result shape: {z.shape}")

执行命令日志:

(vllm_python312) [work@iZuf6hp1dkg31metmko4pbZ test]$ nsys profile --trace=cuda,nvtx,osrt --output=matrix_mult_trace --force-overwrite true python test_gpu.py Collecting data... Creating tensors on GPU... Performing matrix multiplication... Done! Time: 0.10 seconds Result shape: torch.Size([10000, 10000]) Generating '/tmp/nsys-report-1078.qdstrm' [1/1] [========================100%] matrix_mult_trace.nsys-rep Generated: /data/xiehao/workspace/code/test/matrix_mult_trace.nsys-rep

将nsys-rep文件在Windows端通过GUI打开:

上面的python代码涉及GPU操作的有3部分:

- x复制到GPU,32ms

- y复制到GPU,31ms

- mm操作,47ms

相关新闻

  • Kubernetes Debug 专用镜像实践指南
  • 基于VUE的企业信息管理系统 [VUE]-计算机毕业设计源码+LW文档
  • LobeChat能否实现段落缩写功能?长文本精炼助手

最新新闻

  • MC68HC908GZ ESCI模块深度解析:寄存器操作、波特率配置与调试实战
  • 2026年6月目前评价高的水帘除尘器制造厂家选哪家,喷淋塔除尘器/水帘除尘器/湿式除尘器,水帘除尘器批发厂家推荐 - 品牌推荐师
  • 2026年热门的义乌拼箱代理/义乌货运代理哪家专业 - 品牌宣传支持者
  • 从FWHM到σ:高斯波形解析中的关键几何关系与物理意义
  • C++栈与堆内存对比
  • 2026年知名的环保帆布袋/龙港帆布袋定制公司选择指南 - 品牌宣传支持者

日新闻

  • 信任的进化:技术实现详解——如何用JavaScript构建博弈论模拟器
  • Terrakube自定义工作流:如何集成OPA、Infracost等工具扩展IaC能力
  • grunt-concurrent快速入门:5分钟学会并行运行Grunt任务

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号