当前位置: 首页 > news >正文

在SCnet上部署70b int4的模型

SCNet超算互联网异构加速卡BW 显存64GB试用海光的国产CPUx86国产GPU异构加速卡DPUSCNet超算互联网https://www.scnet.cn/home/internet/index.html国家级别、面向市场的算力服务部署70B参数的INT4量化模型需要高性能硬件支持,NT4模型显存占用约为35-40GB。一、创建模型由于SCnet上没有关于70b int4的模型所以我们采用外部模型仓库现在主流的模型仓库包括hugging face和modelscope但是hugging face访问外网有限制您可以下载到本地上到集群所以我们采用modelscope在模型仓库找到合适模型复制网址Meta-Llama-3.1-70B-Instruct-AWQ-INT4 · 模型库最后创建模型即可等待模型创建。。出现以上界面说明创建成功二、创建环境点击“Notebook”进入创建Notebook页面选择区域、异构加速卡AI-64GB开发镜像中的“基础镜像”在选择列表中选择jupyterlab-pytorch:2.4.1-ubuntu22.04-dtk25.04.1-py3.10-devel 点击创建。创建完成后状态显示为”运行中“自定义修改容器实例名称点击快捷工具列的”JupyterLab“进入容器进入容器根据公告栏提示将个人数据如模型文件、数据集等放在/root/private_data路径下。查看基础镜像配置的vllm版本以上就完成了基础环境的创建。三、启动模型服务启动脚本python3 -m vllm.entrypoints.openai.api_server \ --model /public/home/acbquoy93n/SothisAI/model/ExternalSource/Meta-Llama-3.1-70B-Instruct-AWQ-INT4/main/Meta-Llama-3.1-70B-Instruct-AWQ-INT4 \ --host 0.0.0.0 --port 10304 \ --gpu-memory-utilization 0.8 \ --served-model-name Meta-Llama-3.1-70B-Instruct-AWQ-INT4 \ --dtype float16 \ --tensor-parallel-size 1 \ --max-model-len 5000 \ --trust-remote-code注--module xxxx/xxx 模型路径 --served-model-name xxx 自定义的模型名称 --port xxx 自定义服务端口号--gpu-memory-utilization xxx 指定vllm可使用当前dcu的显存比例;--dtype xxx 指定模型数据类型 --tensor-parallel-size xxx 设置张量并行的大小即dcu的数量--max-model-len xxx 指定模型能够处理的最大输入长度等待模型加载本地验证。curl http://127.0.0.1:10304/v1/chat/completions -H Content-Type: application/json -d {model: Meta-Llama-3.1-70B-Instruct-AWQ-INT4,messages: [{role: user, content: 请介绍下成都锦城学院要求500字以内}]}注http://xxxx:port/v1/chat/completions , 其中xxx为localhostport 为自定义的端口号model:xxxxxx 为served-model-name 自定义的模型名四、将端口映射到公网测试API调用注修改为实际的APIcurl https://c-2058440394521022466.zzai2.scnet.cn:xxxx/v1/chat/completions -H Content-Type: application/json -d {model: Meta-Llama-3.1-70B-Instruct-AWQ-INT4,messages: [{role: user, content: 请介绍下四川要求500字以内}]}
http://www.rkmt.cn/news/1378889.html

相关文章:

  • 终极指南:如何用OpenHRMS开源人力资源管理系统提升企业效率
  • 初创团队如何利用TaoToken统一管理多个AI项目的模型与成本
  • 基于ESP32与超声波的低成本无人机室内定位系统设计与实现
  • 初创公司如何借助 Taotoken 的 Token Plan 套餐优化 AI 研发成本结构
  • Multi-Agent系统实战:让多个Agent协作完成复杂任务
  • Frida逆向小程序云托管API通信链路实战
  • eqMac音频均衡器:核心功能与扩展模块配置指南
  • 模型训练中BatchSize大小对训练结果的影响
  • 如何快速定位Windows热键冲突:Hotkey Detective一键检测占用程序
  • 基于Intel Xe GPU与SYCL的AI模型完整性验证框架设计与优化
  • 抖音下载器终极指南:如何快速下载抖音视频和直播回放
  • 深入Linux时间管理:从主板上的RTC芯片到Ubuntu20.04的timedatectl,一次讲清楚
  • 3分钟快速上手:暗黑破坏神2存档编辑的终极免费工具指南
  • 从Bing日志到学术基准:MS MARCO数据集的前世今生与你的信息检索实验
  • 如何将B站缓存视频从m4s格式无损转换为通用MP4?
  • Java日常开发中常用的重要关键字
  • 基于ESP32与SGP30的室内空气质量监测系统DIY指南
  • 从零掌握Stellaris LM3S:ARM Cortex-M3微控制器实战开发指南
  • 现在不学DeepSeek代码审查,3个月后你的CI/CD流水线将全面落后——5大不可逆趋势预警
  • 【DeepSeek代码质量评估权威指南】:20年架构师亲测的5大核心指标与3个致命陷阱
  • 在Ubuntu 22.04上,用RTX 4090为OpenCV 4.10.0开启Nvidia GPU硬解码(附CUDA 12.8配置)
  • 技术社区视频挑战赛策划指南:从Elektor案例到实践落地
  • 从波音787电池事故看航空级锂电安全设计挑战与工程实践
  • 第6篇:前端新手调试与优化指南——彻底告别样式错乱、代码报错、页面卡顿
  • 基于树莓派Pico与运放电路的低成本任意波形发生器设计与实现
  • py每日spider案例之某志愿翻页接口(md5算法)
  • 英澳SDET自动化测试赛道性价比真相「蒸汽求职」
  • 终极指南:3个简单方法使用ncmdump快速解密网易云NCM音乐文件
  • 基于元学习的AutoML动态搜索空间构建:原理、实现与效率优化
  • 如何在Windows系统上完美运行Android应用:WSABuilds终极解决方案指南