当前位置：首页 > news >正文

在SCnet上部署70b int4的模型

news 2026/5/25 13:02:20

SCNet超算互联网异构加速卡BW 显存64GB试用海光的国产CPUx86国产GPU异构加速卡DPUSCNet超算互联网https://www.scnet.cn/home/internet/index.html国家级别、面向市场的算力服务部署70B参数的INT4量化模型需要高性能硬件支持,NT4模型显存占用约为35-40GB。一、创建模型由于SCnet上没有关于70b int4的模型所以我们采用外部模型仓库现在主流的模型仓库包括hugging face和modelscope但是hugging face访问外网有限制您可以下载到本地上到集群所以我们采用modelscope在模型仓库找到合适模型复制网址Meta-Llama-3.1-70B-Instruct-AWQ-INT4 · 模型库最后创建模型即可等待模型创建。。出现以上界面说明创建成功二、创建环境点击“Notebook”进入创建Notebook页面选择区域、异构加速卡AI-64GB开发镜像中的“基础镜像”在选择列表中选择jupyterlab-pytorch:2.4.1-ubuntu22.04-dtk25.04.1-py3.10-devel 点击创建。创建完成后状态显示为”运行中“自定义修改容器实例名称点击快捷工具列的”JupyterLab“进入容器进入容器根据公告栏提示将个人数据如模型文件、数据集等放在/root/private_data路径下。查看基础镜像配置的vllm版本以上就完成了基础环境的创建。三、启动模型服务启动脚本python3 -m vllm.entrypoints.openai.api_server \ --model /public/home/acbquoy93n/SothisAI/model/ExternalSource/Meta-Llama-3.1-70B-Instruct-AWQ-INT4/main/Meta-Llama-3.1-70B-Instruct-AWQ-INT4 \ --host 0.0.0.0 --port 10304 \ --gpu-memory-utilization 0.8 \ --served-model-name Meta-Llama-3.1-70B-Instruct-AWQ-INT4 \ --dtype float16 \ --tensor-parallel-size 1 \ --max-model-len 5000 \ --trust-remote-code注--module xxxx/xxx 模型路径 --served-model-name xxx 自定义的模型名称 --port xxx 自定义服务端口号--gpu-memory-utilization xxx 指定vllm可使用当前dcu的显存比例;--dtype xxx 指定模型数据类型 --tensor-parallel-size xxx 设置张量并行的大小即dcu的数量--max-model-len xxx 指定模型能够处理的最大输入长度等待模型加载本地验证。curl http://127.0.0.1:10304/v1/chat/completions -H Content-Type: application/json -d {model: Meta-Llama-3.1-70B-Instruct-AWQ-INT4,messages: [{role: user, content: 请介绍下成都锦城学院要求500字以内}]}注http://xxxx:port/v1/chat/completions , 其中xxx为localhostport 为自定义的端口号model:xxxxxx 为served-model-name 自定义的模型名四、将端口映射到公网测试API调用注修改为实际的APIcurl https://c-2058440394521022466.zzai2.scnet.cn:xxxx/v1/chat/completions -H Content-Type: application/json -d {model: Meta-Llama-3.1-70B-Instruct-AWQ-INT4,messages: [{role: user, content: 请介绍下四川要求500字以内}]}

查看全文

http://www.rkmt.cn/news/1378889.html