尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

TensorRT-LLM部署Qwen3-14B

TensorRT-LLM部署Qwen3-14B
📅 发布时间:2026/6/19 1:59:02

TensorRT-LLM部署

TensorRT-LLM 官方文档地址:https://nvidia.github.io/TensorRT-LLM/overview.html

下载相关的镜像

Nvidia官方镜像网址:https://catalog.ngc.nvidia.com/search?filters=resourceType%7CContainer%7Ccontainer&query=tensorrt-llm

#下载Nvidia tensorRT-LLM 镜像, docker pull nvcr.io/nvidia/tensorrt-llm/release:1.2.0rc4

注意:release版本镜像并没有将模型转换checkpoint的依赖环境,没有tensorrt-llm ,需要手动安装,或者找其他版本的镜像(本人测试了 devel 版本(nvcr.io/nvidia/tensorrt-llm/devel:1.2.0rc4)仍然没有,网络建议的build版本、engine版本没有找到,只能自己安装)

进入镜像,安装相关的的依赖:

pip install tensorrt-llm pip install transformers accelerate sentencepiece safetensors huggingface_hu #如果你是 Qwen3 系列,还必须安装: pip install tiktoken pip install einops #如果你是 LLaMA: pip install protobuf #如果你用 chatml / tokenizer 的特殊格式: pip install sentencepiece

准备基础模型

Qwen3-14B: 官方镜像即可

#存放目录: /mnt/data/models/Qwen/Qwen3-14B

下载github转换脚本文件

TensorRT-LLMgithub地址: https://github.com/NVIDIA/TensorRT-LLM/blob/main/examples/models/core/qwen/convert_checkpoint.py

#存放文件目录: /mnt/data/models/tensor/convert_checkpoint.py

转换checkpoint:

python convert_checkpoint.py \ --model_dir /mnt/data/models/Qwen/Qwen3-14B \ --output_dir /mnt/data/models/tensor/trt_checkpoints/qwen3-14b/fp16 \ --dtype fp16

转换模型checkpoint不需要GPU资源,但是当前只使用一个镜像自己完成所有的过程,则需要GPU资源

原则上不需要 GPU

  • 仅涉及权重 reshape/分片
  • 仅涉及 JSON 结构、配置生成
  • 不包含算子编译

构建engine文件:

trtllm-build \ --checkpoint_dir /mnt/data/models/tensor/trt_checkpoints/qwen3-14b/float16 \ --output_dir /mnt/data/models/tensor/engine/qwen3-14b-engine \ --gemm_plugin float16 \ --max_batch_size 8 \ --max_input_len 2048 \ --max_seq_len 4096 \ --kv_cache_type paged \ --workers 16 \ --log_level info

注意:

engine构建是需要GPU资源的,构建engine的GPU资源需要和部实际部署的GPU资源保持一致,

例如:部署使用单卡L20,则构建的engine必须使用相同的GPU资源,型号数量要相同

此步骤需要:

  • CUDA kernel 生成
  • TensorRT builder 编译
  • GPU 上的 profile 校准
  • Plugin 编译优化

必须使用 GPU

  • TensorRT engine 构建只能在 GPU 上完成
  • 并且必须使用目标 GPU(或者至少与目标 GPU 架构兼容)

为什么需要 GPU?

  • TensorRT 需要 GPU 的Compute Capability来生成最优 kernel
  • 不同显卡(A100 / H100 / L20 / RTX4090)生成的 Engine 不能通用!

部署engine:

trtllm-serve serve /mnt/data/models/tensor/engine/qwen3-14b-engine \ --tokenizer /mnt/data/models/Qwen/Qwen3-14B \ --host 0.0.0.0 \ --port 8000 \ --log_level info \ --backend tensorrt \ --tp_size 1 \ --max_batch_size 8 \ --max_seq_len 4096

相关新闻

  • GPT-SoVITS与其他TTS工具对比:优势在哪里?
  • 曜华全自动太阳能电池片光纤激光划片机:光伏组件智能制造的第一道密码
  • vue3中使用echarts实现3D饼图(组件封装)

最新新闻

  • 如何快速掌握跨平台配置编辑:终极效率指南
  • 7-2-查询练习
  • Transformer推理优化全景:从模型架构到硬件底层的深度解析
  • LIMS疾控检测系统系统介绍
  • Citra 3DS模拟器完整指南:如何在电脑上畅玩任天堂3DS游戏 [特殊字符]
  • 基于Delaunay三角剖分的无人驾驶赛车实时路径规划实践

日新闻

  • 5分钟掌握Python进化算法:Geatpy高性能优化工具完全指南
  • Microchip 24AA044 EEPROM选型与应用全指南:从参数解析到实战编程
  • 华为的鸿蒙到底有多牛?为什么称作遥遥领先?

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号