尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

使用vLLM实测3090和4090的大模型推理性能

使用vLLM实测3090和4090的大模型推理性能
📅 发布时间:2026/6/20 1:36:01
使用vLLM实测3090和4090的大模型推理性能使用`vLLM`测试下大模型并发推理场景下3090和4090两张显卡的性能表现,看下4090是否在高并发场景下具备更高的扩展性。 3090显卡和4090显卡在模型推理过程中的显存和GPU使用率都比较接近,1~8并发度场景下,3090和4090的推理性能均保持稳定;在16并发度下3090开始遇到性能瓶颈,而4090显然较3090有更充足的剩余性能空间。

之前使用Ollama基于顺序调用的场景比较了3090和4090的显卡性能:
Ollama大模型推理场景下3090和4090性能实测

同时,又基于3090显卡比较了Ollama和vLLM在顺序调用和多并发推理场景下的性能差异:
Ollama和vLLM大模型推理性能对比实测

这里再使用vLLM测试下大模型并发推理场景下3090和4090两张显卡的性能表现,看下4090是否在高并发场景下具备更高的扩展性。

在GPU算力租用平台 晨涧云 分别租用3090显卡和4090显卡的vLLM云容器进行测试。

大模型选择

选择 Qwen3的模型进行测试,考虑到都是24GB的显存,选择的是FP16精度的qwen3:8b模型进行测试。

借助DeepSeek 生成测试脚本,调整脚本控制变量:

  • 使用复杂度近似的N个prompts;

  • MAX_TOKENS配置256,让每次请求需要一定的生成时长便于采样显卡的使用指标,减少波动;

  • 选择[1, 4, 8, 16] 4种BATCH_SIZES测试不同并发度下的性能表现;

  • 每轮测试执行3次推理,指标取平均;

  • 同时需要模型预热,消除第一次推理响应延时过大的问题。

然后执行推理性能测试脚本,查看输出结果。

3090推理性能

3090-vLLM大模型推理测试结果

4090推理性能

4090-vLLM大模型推理测试结果

测试结果解释

  • Batch Size:一次推理调用的并发prompt数量

  • 平均耗时 (s):多次推理平均响应时长

  • 平均吞吐量 (tokens/s):多次推理平均Token生成速度

  • 平均显存 (MB):多次推理平均显存使用量

  • 平均GPU使用率(%):多次推理平均GPU使用率

3090显卡和4090显卡在模型推理过程中的显存和GPU使用率都比较接近,主要看平均耗时及平均吞吐量两个指标:

Batch Size RTX 3090 RTX 4090 对比
1 平均耗时(s) 5.44 4.61
1 平均吞吐量(tokens/s) 47.10 55.60 118.0%
4 平均耗时(s) 5.61 4.87
4 平均吞吐量(tokens/s) 182.70 210.40 115.2%
8 平均耗时(s) 5.82 4.94
8 平均吞吐量(tokens/s) 351.90 414.50 117.8%
16 平均耗时(s) 6.42 5.13
16 平均吞吐量(tokens/s) 638.40 798.50 125.1%

1~8并发度场景下,3090和4090的推理性能均保持稳定,4090比3090高17%左右;在16并发度下3090开始遇到性能瓶颈,而4090显然较3090有更充足的剩余性能空间。

相关新闻

  • Redis高可用与高并发探险之旅:从单机到集群的完美进化【第三部分】
  • a-menu 当设置折叠状态如何穿透悬浮菜单样式
  • kamailio+rtpengine对sdp的处理

最新新闻

  • [Windows]罗技G HUB(Logitech G HUB)旧版本下载地址汇总
  • 电瓶车托运不拆电池行吗?2026新规+省钱方案来了 - 快递物流资讯
  • 2026年北京发电机租赁、应急电源车租赁厂家名单及选购参考指南 - 海棠依旧大
  • 如何配置远程的ubuntu服务器以使在本地windows电脑上可以进行X11图形转发——ssh远程X11转发的配置
  • 电商平台XSS攻击实战防御:从前端到后端的双重安全防线
  • 合肥口碑最好的中专选哪家?综合实力优选合肥理工学校! - 教育为先

日新闻

  • 信任的进化:技术实现详解——如何用JavaScript构建博弈论模拟器
  • Terrakube自定义工作流:如何集成OPA、Infracost等工具扩展IaC能力
  • grunt-concurrent快速入门:5分钟学会并行运行Grunt任务

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号