当前位置: 首页 > news >正文

LLaMa-Factory 使用 Llama-3-8B-Instruct 在 双卡 NVIDIA Quadro P5000 16G 环境跑通4bit模型微调全过程

前言

由于 P5000 VRAM 有限,我们优先使用 QLoRA(4-bit 量化)模式进行高效微调,避免 OOM(内存不足)错误。

下载模型

https://modelscope.cn/models/LLM-Research/Meta-Llama-3-8B-Instruct/files

使用 modelscope 下载模型,python 环境安装 pip install modelscope

开始下载模型:

modelscope download --model LLM-Research/Meta-Llama-3-8B-Instruct --local_dir /root/niuben/Meta-Llama-3-8B-Instruct

下载 Llama Factory GPU Docker 镜像

Llama Factory 官方提供预构建的 GPU 镜像 hiyouga/llamafactory:latest,基于 CUDA 12.4、PyTorch 2.6.0 和 Flash-attn 2.7.4,支持 Quadro P5000。

docker pull hiyouga/llamafactory:latest

1. 硬件环境

Wed Dec 10 10:22:22 2025       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 580.82.09    Driver Version: 580.82.09    CUDA Version: 13.0             |
|-------------------------------+----------------------+------------------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Quadro P5000       Off  | 00000000:00:06.0 Off |                  Off |
| 26%   37C    P8     6W / 180W |    109MiB / 16384MiB |      0%      Default |
|   1  Quadro P5000       Off  | 00000000:00:07.0 Off |                  Off |
| 26%   32C    P8     6W / 180W |    109MiB / 16384MiB |      0%      Default |
+---------------------------------------------------------------------------------------+

2. 启动 LLaMa-Factory GPU 镜像

挂载模型、数据集和输出目录,支持 GPU 透传)

docker run -it --rm \--gpus=all \--ipc=host \--network=host \-v /root/niuben:/models/llama3 \-p 7860:7860 -p 8000:8000 \--name llamafactory-finetune \hiyouga/llamafactory:latest \/bin/bash

进入容器后(bash),验证环境:

nvidia-smi  # 确认 P5000 被识别
python -c "import torch; print(torch.cuda.is_available())"  # 应输出 True
pip list | grep -E "torch|transformers|peft"  # 检查核心库(已预装)

3. 关键补丁(最新镜像漏装了 bitsandbytes)

pip install --no-cache-dir bitsandbytes==0.44.1 -f https://jihulab.com/jianyuan/cuda-wheel-index/-/raw/main/

4. 开始 QLoRA 微调

这里 --dataset参数,使用了内置数据集 alpaca_en_demo,或者你可以指定自己的数据集路径

  • alpaca_en_demo # 经典 Alpaca 英文 52K 的精简版,只有 1000 条,专门给显存小的人练手,几十分钟就能跑完
  • identity_zh # 如果你想中文微调,直接改成这个(500 条高质量中文身份对齐数据)
  • sharegpt_zh # 或者这个(2万+ 中文 ShareGPT 数据,显存够的话可以用)

--quantization_bit: 4 指定了 4-bit 量化

llamafactory-cli train \--stage sft \--do_train \--model_name_or_path /models/llama3/Meta-Llama-3-8B-Instruct \--template llama3 \--finetuning_type lora \--lora_target q_proj,v_proj \--quantization_bit 4 \--dataset alpaca_en_demo \--cutoff_len 1024 \--output_dir /output/llama3-qlora-p5000 \--logging_steps 5 \--save_steps 200 \--per_device_train_batch_size 2 \--gradient_accumulation_steps 4 \--num_train_epochs 3 \--learning_rate 1e-4 \--bf16 \--gradient_checkpointing \--overwrite_output_dir

训练过程:会自动下载 tokenizer(如果缺失),开始 SFT。日志显示 loss 曲线。
监控:用 watch -n 0.1 nvidia-smi 观察 GPU 使用率。

5. 模型微调后,不合并模型,直接加载 LoRA 聊天

CLI 聊天

llamafactory-cli chat \--model_name_or_path /models/llama3/Meta-Llama-3-8B-Instruct \--adapter_name_or_path /output/llama3-qlora-p5000 \--template llama3 \--finetuning_type lora \--quantization_bit 4

或者你可以使用 Web UI,llamafactory-cli webui

6. 导出完整可部署模型(可选)

llamafactory-cli export \--model_name_or_path /models/llama3/Meta-Llama-3-8B-Instruct \--adapter_name_or_path /output/llama3-qlora-p5000 \--template llama3 \--finetuning_type lora \--export_dir /output/merged-llama3-8b-instruct-cn \--export_size 2 \--export_device cpu

导出后直接用下面命令聊天(不需要原模型了):

llamafactory-cli chat \--model_name_or_path /output/merged-llama3-8b-instruct-cn \--template llama3 \--quantization_bit 4
http://www.rkmt.cn/news/81868.html

相关文章:

  • 苏州别墅装修公司怎么选?这几家口碑好到爆! - 品牌测评鉴赏家
  • 再见了,我的神兽朋友
  • 12月10日日记
  • 苏州装修哪家强?前十榜单大放送! - 品牌测评鉴赏家
  • CQOI 2025
  • 2025苏州装修公司指南:从本土老字号到新锐黑马,这份攻略帮你精准避坑! - 品牌测评鉴赏家
  • NOI 2025
  • 英语_错题集_常用短语
  • 梦数据库新增大字段报错问题
  • 年轻人的理想家:极简风装修公司怎么选?这份避坑指南+实战案例请收好 - 品牌测评鉴赏家
  • 达梦数据库操作
  • MCP 爆火背后:是技术革命,还是精心包装的“新瓶旧酒”?
  • web框架——flask基础知识深入-flask3.x之上下文管理机制
  • 「2025家装售后红榜」十大装修公司谁能“售后无忧”? - 品牌测评鉴赏家
  • 2025年12月成都软件定制开发,crm系统定制软件开发,流程管理系统软件开发公司推荐:聚焦企业定制能力与技术竞争力​ - 品牌鉴赏师
  • 2025年12月cfd券商推荐:行业权威盘点与合规资质红榜发布​ - 品牌鉴赏师
  • SAM 学习笔记
  • 2025年12月cfd经纪商公司推荐:行业权威测评与合规交易平台红榜发布​ - 品牌鉴赏师
  • 2025年12月四川软件开发,成都软件开发,数据中台管理系统软件开发公司推荐:定制服务测评与选型指南​ - 品牌鉴赏师
  • 2025年12月降血糖公司推荐:行业权威盘点与品质红榜发布​ - 品牌鉴赏师
  • 2025年12月杭州章程翻译,杭州法律翻译,杭州移民翻译公司品牌推荐榜,专业度与口碑深度解析!​ - 品牌鉴赏师
  • 2025年12月ACDC电源模块,AC-DC电源模块,DC电源模块厂家推荐:行业权威盘点与品质红榜发布​ - 品牌鉴赏师
  • python 装饰器 —— @functools.wraps
  • 按DDD领域分析Openfeign
  • 东方博宜OJ 4567:树的根 ← 邻接表 or 链式前向星
  • 准确率和召回率的平衡点
  • Python threading.Lock() thread lambda
  • 【Agent】MemOS 源码笔记---(4)---KV Cache
  • 2025.12.10
  • 大数据存储新范式:RustFS与Hadoop生态无缝集成实战指南