当前位置：首页 > news >正文

LLaMa-Factory 使用 Llama-3-8B-Instruct 在双卡 NVIDIA Quadro P5000 16G 环境跑通4bit模型微调全过程

news 2026/6/11 18:12:25

前言

由于 P5000 VRAM 有限，我们优先使用 QLoRA（4-bit 量化）模式进行高效微调，避免 OOM（内存不足）错误。

下载模型

https://modelscope.cn/models/LLM-Research/Meta-Llama-3-8B-Instruct/files

使用 modelscope 下载模型，python 环境安装 pip install modelscope

开始下载模型：

modelscope download --model LLM-Research/Meta-Llama-3-8B-Instruct --local_dir /root/niuben/Meta-Llama-3-8B-Instruct

下载 Llama Factory GPU Docker 镜像

Llama Factory 官方提供预构建的 GPU 镜像 hiyouga/llamafactory:latest，基于 CUDA 12.4、PyTorch 2.6.0 和 Flash-attn 2.7.4，支持 Quadro P5000。

docker pull hiyouga/llamafactory:latest

1. 硬件环境

Wed Dec 10 10:22:22 2025       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 580.82.09    Driver Version: 580.82.09    CUDA Version: 13.0             |
|-------------------------------+----------------------+------------------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Quadro P5000       Off  | 00000000:00:06.0 Off |                  Off |
| 26%   37C    P8     6W / 180W |    109MiB / 16384MiB |      0%      Default |
|   1  Quadro P5000       Off  | 00000000:00:07.0 Off |                  Off |
| 26%   32C    P8     6W / 180W |    109MiB / 16384MiB |      0%      Default |
+---------------------------------------------------------------------------------------+

2. 启动 LLaMa-Factory GPU 镜像

挂载模型、数据集和输出目录，支持 GPU 透传）

docker run -it --rm \--gpus=all \--ipc=host \--network=host \-v /root/niuben:/models/llama3 \-p 7860:7860 -p 8000:8000 \--name llamafactory-finetune \hiyouga/llamafactory:latest \/bin/bash

进入容器后（bash），验证环境：

nvidia-smi  # 确认 P5000 被识别
python -c "import torch; print(torch.cuda.is_available())"  # 应输出 True
pip list | grep -E "torch|transformers|peft"  # 检查核心库（已预装）

3. 关键补丁（最新镜像漏装了 bitsandbytes）

pip install --no-cache-dir bitsandbytes==0.44.1 -f https://jihulab.com/jianyuan/cuda-wheel-index/-/raw/main/

4. 开始 QLoRA 微调

这里 --dataset参数，使用了内置数据集 alpaca_en_demo，或者你可以指定自己的数据集路径

alpaca_en_demo # 经典 Alpaca 英文 52K 的精简版，只有 1000 条，专门给显存小的人练手，几十分钟就能跑完
identity_zh # 如果你想中文微调，直接改成这个（500 条高质量中文身份对齐数据）
sharegpt_zh # 或者这个（2万+ 中文 ShareGPT 数据，显存够的话可以用）

--quantization_bit: 4 指定了 4-bit 量化

llamafactory-cli train \--stage sft \--do_train \--model_name_or_path /models/llama3/Meta-Llama-3-8B-Instruct \--template llama3 \--finetuning_type lora \--lora_target q_proj,v_proj \--quantization_bit 4 \--dataset alpaca_en_demo \--cutoff_len 1024 \--output_dir /output/llama3-qlora-p5000 \--logging_steps 5 \--save_steps 200 \--per_device_train_batch_size 2 \--gradient_accumulation_steps 4 \--num_train_epochs 3 \--learning_rate 1e-4 \--bf16 \--gradient_checkpointing \--overwrite_output_dir

训练过程：会自动下载 tokenizer（如果缺失），开始 SFT。日志显示 loss 曲线。
监控：用 watch -n 0.1 nvidia-smi 观察 GPU 使用率。

5. 模型微调后，不合并模型，直接加载 LoRA 聊天

CLI 聊天

llamafactory-cli chat \--model_name_or_path /models/llama3/Meta-Llama-3-8B-Instruct \--adapter_name_or_path /output/llama3-qlora-p5000 \--template llama3 \--finetuning_type lora \--quantization_bit 4

或者你可以使用 Web UI，llamafactory-cli webui

6. 导出完整可部署模型（可选）

llamafactory-cli export \--model_name_or_path /models/llama3/Meta-Llama-3-8B-Instruct \--adapter_name_or_path /output/llama3-qlora-p5000 \--template llama3 \--finetuning_type lora \--export_dir /output/merged-llama3-8b-instruct-cn \--export_size 2 \--export_device cpu

导出后直接用下面命令聊天（不需要原模型了）：

llamafactory-cli chat \--model_name_or_path /output/merged-llama3-8b-instruct-cn \--template llama3 \--quantization_bit 4

查看全文

http://www.rkmt.cn/news/81868.html

苏州别墅装修公司怎么选？这几家口碑好到爆！ - 品牌测评鉴赏家

再见了，我的神兽朋友

12月10日日记

苏州装修哪家强？前十榜单大放送！ - 品牌测评鉴赏家

CQOI 2025

2025苏州装修公司指南：从本土老字号到新锐黑马，这份攻略帮你精准避坑！ - 品牌测评鉴赏家

NOI 2025

英语_错题集_常用短语

梦数据库新增大字段报错问题

年轻人的理想家：极简风装修公司怎么选？这份避坑指南+实战案例请收好 - 品牌测评鉴赏家

达梦数据库操作

MCP 爆火背后：是技术革命，还是精心包装的“新瓶旧酒”？

web框架——flask基础知识深入-flask3.x之上下文管理机制

「2025家装售后红榜」十大装修公司谁能“售后无忧”？ - 品牌测评鉴赏家

2025年12月成都软件定制开发，crm系统定制软件开发，流程管理系统软件开发公司推荐：聚焦企业定制能力与技术竞争力 - 品牌鉴赏师

2025年12月cfd券商推荐：行业权威盘点与合规资质红榜发布 - 品牌鉴赏师

SAM 学习笔记

2025年12月四川软件开发，成都软件开发，数据中台管理系统软件开发公司推荐：定制服务测评与选型指南 - 品牌鉴赏师

2025年12月降血糖公司推荐：行业权威盘点与品质红榜发布 - 品牌鉴赏师

2025年12月杭州章程翻译，杭州法律翻译，杭州移民翻译公司品牌推荐榜，专业度与口碑深度解析！ - 品牌鉴赏师

2025年12月ACDC电源模块，AC-DC电源模块，DC电源模块厂家推荐：行业权威盘点与品质红榜发布 - 品牌鉴赏师

python 装饰器 —— @functools.wraps

按DDD领域分析Openfeign

东方博宜OJ 4567：树的根 ← 邻接表 or 链式前向星

准确率和召回率的平衡点

Python threading.Lock() thread lambda

【Agent】MemOS 源码笔记---(4)---KV Cache

2025.12.10

大数据存储新范式：RustFS与Hadoop生态无缝集成实战指南

前言