大模型推理如何实现Download Once, Infer Everywhere-尧图网站建设

📅 发布时间：2026/6/22 5:43:53

1. 项目概述：为什么大模型推理要和NFS“绑”在一起？

最近在给三个不同业务线部署Qwen2-7B、Llama3-8B和Phi-3-mini这三套模型服务时，我彻底放弃了过去那种“每台GPU服务器都单独下载、解压、校验模型权重”的老路子。不是因为懒，而是实测下来——单次下载耗时23分钟，校验失败重来3次，光是准备环境就占掉整个上线流程60%的时间；更麻烦的是，模型版本一更新，六台A100节点得同步手动操作，漏一台就导致API返回500。直到我把所有模型文件统一存到一个NFS共享目录里，用vLLM做无状态推理服务，再通过Kubernetes做弹性调度，才真正实现“下载一次，处处可用”。这个标题里的“Download Once, Infer Everywhere”，说的不是理想主义口号，而是我们团队踩了两周坑后总结出的一条生产级落地路径：模型存储层与计算层解耦，让大模型像水电一样即插即用。核心关键词LLM、NFS、vLLM、Kubernetes，每一个都不是孤立存在——NFS解决的是模型二进制文件的集中分发与原子一致性问题；vLLM提供的是高吞吐、低延迟的PagedAttention推理引擎；Kubernetes则负责把这两者编织成可伸缩、可恢复的服务网格。它适合两类人：一类是正在搭建私有大模型平台的SRE或MLOps工程师，另一类是想快速验证多个模型效果但苦于本地显存不足的算法研究员。你不需要从零写调度器，也不用自己实现KV缓存管理，只需要理解NFS挂载的底层约束、vLLM对模型路径的加载逻辑、以及Kubernetes中PersistentVolumeClaim如何与StatefulSet协同工作——这三点吃透，剩下的就是配置和调优。

2. 整体架构设计与技术选型逻辑

2.1 为什么不是对象存储（S3/OSS）？也不是本地磁盘阵列？

很多人第一反应是：“模型文件这么大，直接扔S3不香吗？”我试过。用MinIO搭了个私有S3，vLLM通过--model参数传入s3://bucket/models/qwen2-7b，结果启动报错：OSError: Unable to load weights from s3 path。翻vLLM源码发现，它底层调用HuggingFacesnapshot_download时，默认只支持http://和本地路径，S3需要额外打patch加boto3依赖并重写hf_hub_download逻辑。这不是不能做，而是引入了非标准路径——一旦vLLM升级，你的patch可能失效；更关键的是，S3的HTTP协议带来显著延迟：实测单次加载model.safetensors.index.json要380ms，而NFS本地挂载下只要8ms。再看本地磁盘阵列方案：给每台GPU服务器配一块4TB NVMe，把模型拷过去。听起来稳，但实际运维灾难：模型版本升级时，必须逐台执行rsync -av --delete，网络抖动会导致某台节点同步中断，残留旧权重引发推理结果错乱；更致命的是，当某台A100宕机需紧急迁移Pod时，新节点上根本没有该模型，vLLM直接启动失败，服务中断。NFS的价值恰恰在于它用POSIX语义提供了“强一致性视图”——所有客户端看到的目录结构、文件mtime、inode号完全一致，vLLM加载时不会因缓存不一致读到损坏的分片。我们最终选的是TrueNAS SCALE 24.04作为NFS服务端，启用NFSv4.2协议，关闭noac（关闭属性缓存）和nordirplus（禁用readdirplus优化），确保每次stat()都穿透到服务端。这不是为了性能，而是为了确定性——在分布式系统里，确定性比峰值性能重要十倍。

2.2 vLLM为何成为不可替代的推理引擎？

有人问：“既然NFS解决了存储，那用HuggingFace Transformers原生推理不行吗？”可以，但代价巨大。我们拿Qwen2-7B做对比测试：同样在单卡A100上，Transformers默认配置下，batch_size=1时P99延迟1.2秒；而vLLM开启PagedAttention后，batch_size=32时P99仅210ms。差距在哪？根本原因是内存管理模型不同。Transformers把整个KV Cache塞进显存，随着sequence length增长，显存占用呈平方级上升；vLLM则把KV Cache拆成固定大小的block（默认16x16），按需分配、动态回收，显存利用率提升3.7倍。更重要的是，vLLM的模型加载逻辑天然适配NFS：它不一次性把所有.safetensors文件读入内存，而是按需mmap映射，NFS的read-ahead机制能预取后续block，实测模型首次加载时间比Transformers快2.3倍。还有一个常被忽略的点：vLLM的--model参数接受的是本地路径，这意味着它完全不感知存储后端——无论是NFS、本地SSD还是CephFS，只要Linux内核能mount，vLLM就能用。这种“存储无关性”让我们未来迁移到CephFS时，只需改Kubernetes的StorageClass，vLLM镜像一行代码都不用动。反观Triton Inference Server，虽然也支持NFS，但它的模型仓库要求严格遵循<model_name>/<version>/目录结构，且每次更新版本需手动修改config.pbtxt，运维复杂度陡增。

2.3 Kubernetes的角色：不是锦上添花，而是必要基础设施

把vLLM容器直接跑在物理机上行不行？当然行，但我们坚持上Kubernetes，原因很实在：资源隔离、滚动更新、故障自愈。举个例子：某天凌晨3点，一台A100的GPU温度飙升到92℃，nvidia-smi显示Xid 79错误。如果没K8s，运维得手动ssh登录，kill掉vLLM进程，再重启——这期间所有请求失败。而有了K8s，Node Problem Detector自动标记该节点为NotReady，Deployment控制器立刻在健康节点上拉起新Pod，整个过程<45秒，用户无感。更关键的是，Kubernetes的PersistentVolume（PV）和PersistentVolumeClaim（PVC）抽象，把NFS路径和容器生命周期彻底解耦。我们定义一个model-storagePVC，所有vLLM Pod都通过volumeMount挂载到/models目录。这样，当需要扩容时，只需修改Deployment的replicas字段，新Pod自动获得相同的模型视图；缩容时，旧Pod销毁，PVC依然存在，模型数据零丢失。这里有个重要细节：我们没用StatefulSet，而是用Deployment+PVC。因为vLLM是无状态服务——它不保存任何会话数据，所有状态都在请求上下文中。StatefulSet的有序部署、网络标识等特性在这里纯属冗余，反而增加调度开销。实测显示，Deployment模式下Pod启动时间比StatefulSet快1.8秒，这对高频扩缩容场景至关重要。

3. 核心细节解析与实操要点

3.1 NFS服务端配置：TrueNAS上的关键开关

在TrueNAS SCALE 24.04中创建NFS共享，表面看只是勾选几个选项，但背后每个参数都影响着vLLM的稳定性。我们最终采用的配置组合如下：

配置项	推荐值	为什么必须这样设
NFSv4.2协议	强制启用	支持`layouttype=flexfiles`，允许客户端缓存文件布局元数据，减少stat()次数；vLLM加载模型时频繁调用`os.stat()`检查文件大小和修改时间，NFSv4.2比v3快40%
Security Options	`sys`（而非`krb5`）	vLLM容器内通常不装Kerberos客户端，`krb5`认证会导致挂载失败；`sys`模式用UID/GID映射，简单可靠
Mapall User/Group	`root`	避免权限问题：vLLM容器以非root用户（如`vllm:1001`）运行，若NFS服务端映射为普通用户，可能出现`Permission denied`；设为root后，客户端UID 1001在服务端视为root，完美绕过权限检查
Read/Write Cache	`All`	启用服务端写缓存，vLLM加载时大量小文件读取，缓存命中率超85%，实测模型加载提速1.6倍
Extra Options	`nohide,insecure,no_subtree_check`	`nohide`防止嵌套导出时子目录不可见；`insecure`允许客户端使用非特权端口（容器默认行为）；`no_subtree_check`避免每次访问都校验路径合法性，降低延迟

特别提醒一个血泪教训：最初我们启用了async写模式，认为能提升吞吐。结果某次断电后，NFS服务端日志爆出NFS: server returned error -5 while writing，vLLM加载模型时随机报Corrupted file: model-00001-of-00003.safetensors。查证发现async模式下，服务端声称写入完成，实际数据还在内存缓存中。改为sync后，虽写入延迟增加12%，但模型完整性100%保障。生产环境宁可慢一点，绝不能错一点。

3.2 客户端挂载参数：Linux内核级的性能密码

Kubernetes节点上的NFS挂载命令，绝不是mount -t nfs 10.0.1.10:/mnt/tank/models /models这么简单。我们经过27轮ab测试，最终确定以下参数组合为最优解：

mount -t nfs -o rw,hard,intr,rsize=1048576,wsize=1048576,vers=4.2,proto=tcp,timeo=600,retrans=2,nolock,sec=sys,noac,actimeo=0 10.0.1.10:/mnt/tank/models /models

逐项解释其作用：

hard,intr：硬挂载+可中断。hard保证NFS服务端宕机时，vLLM进程不会静默失败，而是阻塞等待；intr允许用Ctrl+C中断阻塞调用，避免运维无法kill卡死进程。
rsize=1048576,wsize=1048576：读写块大小设为1MB。这是NFSv4.2最大支持值，比默认的64KB提升16倍单次IO效率。vLLM加载模型时，model.safetensors文件平均大小2.3GB，大块传输减少系统调用次数。
timeo=600,retrans=2：超时时间60秒，重试2次。避免网络抖动时vLLM启动卡在Loading model weights...长达5分钟。
nolock：禁用NFS文件锁。vLLM不依赖文件锁，启用反而增加RPC开销，实测延迟升高18%。
noac,actimeo=0：最关键参数。noac禁用属性缓存，actimeo=0强制每次stat()都穿透到服务端。为什么？因为vLLM在加载时会反复检查config.json、pytorch_model.bin.index.json等文件的mtime，若客户端缓存了旧时间戳，可能误判模型未更新，跳过重新加载逻辑。我们曾因此遇到模型热更新失败，排查三天才发现是缓存惹的祸。

提示：这些参数必须写入/etc/fstab，而非临时mount。否则节点重启后，vLLM Pod因挂载点不存在而启动失败。fstab条目示例：
10.0.1.10:/mnt/tank/models /models nfs rw,hard,intr,rsize=1048576,wsize=1048576,vers=4.2,proto=tcp,timeo=600,retrans=2,nolock,sec=sys,noac,actimeo=0 0 0

3.3 vLLM容器镜像定制：精简与加固的平衡术

官方vLLM镜像（vllm/vllm-cu121:0.4.2）虽开箱即用，但直接用于生产有两大隐患：一是体积过大（4.2GB），拉取耗时长；二是包含大量调试工具（vim、curl、bash），违反最小化原则。我们基于nvidia/cuda:12.1.1-base-ubuntu22.04从头构建，步骤如下：

基础依赖精简：只安装python3.10,pip,ca-certificates,libglib2.0-0（vLLM必需），移除apt-get install中所有-dev包和文档包。
vLLM源码编译：不用pip install vllm，而是git clone https://github.com/vllm-project/vllm.git && cd vllm && pip install -e . --no-build-isolation。好处是编译时自动检测CUDA版本，生成最优PTX代码；坏处是构建时间增加8分钟，但换来的是12%的推理吞吐提升。

模型加载优化：在entrypoint.sh中加入预热逻辑：

# 首次启动时，用空请求触发模型加载，避免首请求延迟过高 if [ ! -f /tmp/model_warmed ]; then curl -s "http://localhost:8000/v1/completions" \ -H "Content-Type: application/json" \ -d '{"model":"qwen2-7b","prompt":"Hello","max_tokens":1}' > /dev/null touch /tmp/model_warmed fi

安全加固：创建非root用户vllm（UID 1001），用USER vllm指令切换；删除/root/.cache目录；设置seccomp策略，禁止ptrace、mount等危险系统调用。

最终镜像体积压至1.8GB，启动时间从官方镜像的14秒降至6.3秒。别小看这7秒——在Kubernetes滚动更新时，它意味着服务中断窗口缩短一半。

4. 实操过程与核心环节实现

4.1 模型预处理：从HuggingFace到NFS的标准化流水线

直接把HuggingFace仓库Qwen/Qwen2-7B整个git lfs pull到NFS目录是危险的。我们设计了一套标准化预处理脚本，确保模型文件结构纯净、权限一致、校验完整。流程如下：

下载与校验：在专用构建机（非NFS服务端）执行：

# 使用hf-mirror加速国内下载 export HF_ENDPOINT=https://hf-mirror.com huggingface-cli download Qwen/Qwen2-7B \ --local-dir /tmp/qwen2-7b-raw \ --revision main \ --include "config.json" --include "tokenizer.*" --include "model.safetensors*" \ --resume-download # 校验SHA256，与HF官网页面公布的hash比对 sha256sum /tmp/qwen2-7b-raw/model-*.safetensors | sort > /tmp/qwen2-7b-hashes.txt

结构标准化：vLLM要求模型目录必须包含config.json、tokenizer_config.json、tokenizer.model（或tokenizer.json）及权重文件。我们用Python脚本清理冗余：

# clean_model.py import shutil, json from pathlib import Path raw_dir = Path("/tmp/qwen2-7b-raw") clean_dir = Path("/tmp/qwen2-7b-clean") # 复制必需文件 for f in ["config.json", "tokenizer_config.json", "tokenizer.model"]: if (raw_dir / f).exists(): shutil.copy(raw_dir / f, clean_dir / f) # 合并safetensors索引（若存在） if (raw_dir / "model.safetensors.index.json").exists(): with open(raw_dir / "model.safetensors.index.json") as f: index = json.load(f) # 重写index中的权重路径为相对路径 for k, v in index["weight_map"].items(): index["weight_map"][k] = v.replace("model-", "") with open(clean_dir / "model.safetensors.index.json", "w") as f: json.dump(index, f, indent=2)

NFS推送：使用rsync原子化推送，避免中间状态：
```
# 先推送到临时目录 rsync -av --delete /tmp/qwen2-7b-clean/ root@10.0.1.10:/mnt/tank/models/qwen2-7b.tmp/ # 服务端执行原子重命名 ssh root@10.0.1.10 "mv /mnt/tank/models/qwen2-7b.tmp /mnt/tank/models/qwen2-7b"
```
这样，客户端任何时候看到的/models/qwen2-7b都是完整、一致的状态，不会出现model.safetensors.index.json已更新但部分权重文件缺失的“半成品”。

注意：所有模型文件在NFS服务端的权限必须是755（目录）和644（文件），且属主为root:root。我们用chmod -R 755 /mnt/tank/models/*和chown -R root:root /mnt/tank/models/*确保。若用777，TrueNAS会警告“不安全权限”，且某些Kubernetes发行版（如RancherOS）会拒绝挂载。

4.2 Kubernetes部署：从YAML到生产就绪的七步法

一个看似简单的vLLM Deployment，要达到生产就绪，需跨越七个关键环节。我们以Qwen2-7B为例，逐步展开：

第一步：定义StorageClass（NFS动态供给）

# storageclass-nfs.yaml apiVersion: storage.k8s.io/v1 kind: StorageClass metadata: name: nfs-client provisioner: k8s-sigs.io/nfs-subdir-external-provisioner parameters: archiveOnDelete: "false" --- # 部署nfs-subdir-external-provisioner（略，标准helm chart）

注意：我们不用nfs-clientprovisioner的默认archiveOnDelete: "true"，因为模型文件删除是运维主动行为，不应自动归档。

第二步：创建PersistentVolumeClaim（声明模型存储）

# pvc-models.yaml apiVersion: v1 kind: PersistentVolumeClaim metadata: name: model-storage namespace: llm-inference spec: accessModes: - ReadWriteMany # 关键！允许多Pod同时读 resources: requests: storage: 200Gi # 预估Qwen2-7B+Llama3-8B+Phi-3共需180Gi storageClassName: nfs-client

第三步：构建vLLM Deployment（核心配置）

# deployment-vllm.yaml apiVersion: apps/v1 kind: Deployment metadata: name: vllm-qwen2-7b namespace: llm-inference spec: replicas: 2 # 初始2副本，HPA自动扩缩 selector: matchLabels: app: vllm-qwen2-7b template: metadata: labels: app: vllm-qwen2-7b spec: containers: - name: vllm image: harbor.example.com/vllm-custom:0.4.2-cu121 args: - --model=/models/qwen2-7b - --tensor-parallel-size=1 - --pipeline-parallel-size=1 - --max-num-seqs=256 - --max-model-len=4096 - --port=8000 - --host=0.0.0.0 ports: - containerPort: 8000 volumeMounts: - name: model-storage mountPath: /models resources: limits: nvidia.com/gpu: 1 memory: 32Gi requests: nvidia.com/gpu: 1 memory: 24Gi volumes: - name: model-storage persistentVolumeClaim: claimName: model-storage nodeSelector: gpu-type: a100 # 确保调度到GPU节点

关键点解析：--max-num-seqs=256不是拍脑袋定的。我们用vllm-bench工具压测，发现A100上Qwen2-7B在256并发时，GPU显存占用92%，P99延迟<300ms，再往上并发，延迟陡增。这就是黄金平衡点。

第四步：Service与Ingress暴露

# service-ingress.yaml apiVersion: v1 kind: Service metadata: name: vllm-qwen2-7b-service namespace: llm-inference spec: selector: app: vllm-qwen2-7b ports: - port: 8000 targetPort: 8000 --- apiVersion: networking.k8s.io/v1 kind: Ingress metadata: name: vllm-qwen2-7b-ingress namespace: llm-inference annotations: nginx.ingress.kubernetes.io/proxy-body-size: "100m" spec: rules: - host: qwen2-7b.llm.example.com http: paths: - path: / pathType: Prefix backend: service: name: vllm-qwen2-7b-service port: number: 8000

proxy-body-size设为100m，因为用户可能传入超长prompt（如整篇PDF文本），默认1m会直接返回413。

第五步：HorizontalPodAutoscaler（自动扩缩容）

# hpa-vllm.yaml apiVersion: autoscaling/v2 kind: HorizontalPodAutoscaler metadata: name: vllm-qwen2-7b-hpa namespace: llm-inference spec: scaleTargetRef: apiVersion: apps/v1 kind: Deployment name: vllm-qwen2-7b minReplicas: 1 maxReplicas: 8 metrics: - type: Resource resource: name: cpu target: type: Utilization averageUtilization: 70 - type: Pods pods: metric: name: vllm_gpu_utilization_ratio target: type: AverageValue averageValue: "75"

这里用了两个指标：CPU利用率防止单节点过载；自定义指标vllm_gpu_utilization_ratio（通过vLLM内置Prometheus exporter采集）确保GPU真正被压满才扩容。

第六步：Prometheus监控告警
我们配置了三条核心告警规则：

vllm_gpu_utilization_ratio < 30持续5分钟：说明负载不足，可缩容；
vllm_request_duration_seconds_bucket{le="0.5"} < 0.95：P95延迟超500ms，需检查模型或硬件；
kube_pod_status_phase{phase="Pending"} == 1：Pod卡在Pending，大概率是GPU资源不足或PVC绑定失败。

第七步：CI/CD流水线集成
用GitLab CI实现模型更新自动化：

# .gitlab-ci.yml stages: - validate - deploy validate-model: stage: validate script: - python3 validate_model.py $MODEL_NAME # 校验config.json格式、tokenizer可用性 only: - tags deploy-to-prod: stage: deploy script: - kubectl apply -f k8s/deployment-$MODEL_NAME.yaml - kubectl rollout status deployment/vllm-$MODEL_NAME --timeout=300s when: manual only: - tags

每次打tagqwen2-7b-v1.2.0，自动触发校验和部署，全程无需人工干预。

4.3 性能调优实录：从理论到实测的参数博弈

vLLM的参数调优不是玄学，而是基于硬件特性的精确计算。我们以A100 80GB PCIe版为例，推导关键参数：

1.--max-num-seqs（最大并发请求数）
公式：max_num_seqs ≈ (GPU显存 - 模型权重) / (KV Cache per seq)

Qwen2-7B FP16权重约13.8GB
A100显存80GB，预留10GB给系统，可用60GB
KV Cache per seq =2 * num_layers * hidden_size * sizeof(float16) * seq_len / block_size
- Qwen2-7B：num_layers=28, hidden_size=3584, seq_len=4096, block_size=16
- 计算得：2*28*3584*2*4096/16 ≈ 102MB per seq
因此：(60*1024 - 13800) / 102 ≈ 472
但实测发现，超过256后，P99延迟从210ms飙升至890ms。这是因为PCIe带宽瓶颈：A100的PCIe 4.0 x16带宽64GB/s，256并发时，KV Cache交换已达58GB/s，接近极限。故最终取256。

2.--max-model-len（最大上下文长度）
不能盲目设大。Qwen2-7B官方支持131072，但vLLM在max-model-len=32768时，显存占用比16384多出22%，而实际业务99%请求<8192。我们设为16384，平衡能力与成本。

3.--gpu-memory-utilization（GPU显存利用率）
默认0.9，我们调为0.95。因为A100的ECC纠错内存允许超频使用，实测0.95下稳定运行，显存多榨取5GB，可多承载1个并发。

实测对比表（A100单卡，Qwen2-7B）：

配置项	默认值	我们调优值	P99延迟	吞吐（req/s）	显存占用
`max-num-seqs`	256	256	210ms	42	72GB
`max-model-len`	4096	16384	225ms	40	74GB
`gpu-memory-utilization`	0.9	0.95	210ms	42	76GB
综合最优	—	—	205ms	43	76GB

实操心得：不要迷信文档参数。我们曾按vLLM官网推荐设--block-size=32，结果发现Qwen2-7B的attention head数为28，32不是28的整数倍，导致block内部碎片率高达37%。改成16后，碎片率降至8%，吞吐提升11%。记住：参数必须匹配模型架构，而不是通用经验。

5. 常见问题与排查技巧实录

5.1 NFS挂载失败：从`Connection refused`到`Stale file handle`

这是最常遇到的问题，症状多样，根源却集中。我们整理了真实故障案例与速查表：

现象	可能原因	排查命令	解决方案
`mount.nfs: Connection refused`	NFS服务端rpcbind未运行	`systemctl status rpcbind`	`systemctl start rpcbind && systemctl enable rpcbind`
`mount.nfs: Operation not permitted`	客户端内核禁用NFS	`cat /proc/filesystems \| grep nfs`	`modprobe nfsv4`（Ubuntu需`apt install nfs-common`）
`ls: cannot open directory '/models': Stale file handle`	NFS服务端目录被删除或重命名	`showmount -e 10.0.1.10`	服务端执行`exportfs -ra`刷新导出表
`Permission denied`（挂载成功但读文件失败）	TrueNAS中`Mapall User`未设为root	`ls -l /mnt/tank/models`	在TrueNAS WebUI中将`Mapall User`改为`root`
`No route to host`	防火墙拦截NFS端口	`nmap -p 111,2049 10.0.1.10`	开放端口：`ufw allow from 10.0.1.0/24 to any port 111,2049`

一个独家技巧：当遇到Stale file handle时，不要急着umount -f，先执行sudo umount -l /models（lazy unmount）。它会立即解除挂载点，但允许正在使用的进程继续访问，避免vLLM因文件句柄失效而崩溃。等所有Pod重启后再彻底清理。

5.2 vLLM启动卡住：`Loading model weights...`背后的真相

vLLM日志停在Loading model weights...，90%是NFS IO问题。我们建立了一套标准化诊断流程：

Step 1：确认NFS挂载状态

# 进入vLLM容器 kubectl exec -it vllm-qwen2-7b-xxxxx -- sh # 检查挂载是否正常 df -h /models # 应显示NFS服务器IP和正确容量 # 测试小文件读取 time cat /models/qwen2-7b/config.json \| head -n1 # 正常应<100ms

Step 2：检查大文件mmap性能

# 测试model-00001-of-00003.safetensors的随机读 dd if=/models/qwen2-7b/model-00001-of-00003.safetensors of=/dev/null bs=1M count=100 skip=500 # 若耗时>5秒，说明NFS带宽不足或服务端负载高

Step 3：抓包分析RPC延迟

# 在客户端节点抓NFS流量 tcpdump -i any -w nfs.pcap port 2049 # 用Wireshark打开，过滤`nfs.time_delta > 0.5`，找超时RPC

我们曾发现，某次故障是NFS服务端的ZFS ARC缓存被MySQL占满，导致READRPC平均延迟从8ms飙升至420ms。解决方案：在TrueNAS中限制MySQL的ARC使用量，或为NFS单独划分ZFS dataset。

5.3 Kubernetes调度失败：`0/10 nodes are available: 10 Insufficient nvidia.com/gpu`

明明有10台GPU节点，却提示GPU不足。常见原因有三：

节点标签缺失：kubectl get nodes --show-labels | grep gpu-type，若无输出，需补标签：
kubectl label nodes <node-name> gpu-type=a100
NVIDIA驱动版本不匹配：vLLM镜像编译时用CUDA 12.1，而节点驱动为515（对应CUDA 11.7）。解决方案：
kubectl get nodes -o wide查看KERNEL-VERSION，驱动版本需≥535（支持CUDA 12.1）
GPU Operator未就绪：kubectl get pods -n gpu-operator，若nvidia-device-plugin-daemonset为CrashLoopBackOff，检查日志：
kubectl logs -n gpu-operator nvidia-device-plugin-daemonset-xxxxx
常见错误是Failed to initialize NVML，需重启nvidia-persistenced服务。

注意：Kubernetes的GPU调度是“硬约束”，不支持超卖。若业务允许，可考虑用vLLM + Triton混合部署：vLLM处理高并发短文本，Triton处理低频长文本，共享同一GPU资源。

5.4 模型热更新失败：为什么改了NFS上的文件，vLLM没生效？

这是个经典误区。vLLM加载模型后，权重文件被mmap到显存，NFS上的文件修改不影响已加载的模型。要实现热更新，必须：

滚动重启Pod：kubectl rollout restart deployment/vllm-qwen2-7b
确保新Pod加载新文件：在Deployment中添加imagePullPolicy: Always，并用kubectl set env deployment/vllm-qwen2-7b DATE=$(date +%s)触发滚动更新（不改镜像也能触发）
验证更新结果：调用vLLM的/v1/models接口，检查last_modified字段是否更新

我们曾因忘记第2步，导致新Pod仍加载

大模型推理如何实现Download Once, Infer Everywhere