尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

LLaMa-Factory 使用 Llama-3-8B-Instruct 在 双卡 NVIDIA Quadro P5000 16G 环境跑通4bit模型微调全过程

LLaMa-Factory 使用 Llama-3-8B-Instruct 在 双卡 NVIDIA Quadro P5000 16G 环境跑通4bit模型微调全过程
📅 发布时间:2026/6/19 11:24:41

前言

由于 P5000 VRAM 有限,我们优先使用 QLoRA(4-bit 量化)模式进行高效微调,避免 OOM(内存不足)错误。

下载模型

https://modelscope.cn/models/LLM-Research/Meta-Llama-3-8B-Instruct/files

使用 modelscope 下载模型,python 环境安装 pip install modelscope

开始下载模型:

modelscope download --model LLM-Research/Meta-Llama-3-8B-Instruct --local_dir /root/niuben/Meta-Llama-3-8B-Instruct

下载 Llama Factory GPU Docker 镜像

Llama Factory 官方提供预构建的 GPU 镜像 hiyouga/llamafactory:latest,基于 CUDA 12.4、PyTorch 2.6.0 和 Flash-attn 2.7.4,支持 Quadro P5000。

docker pull hiyouga/llamafactory:latest

1. 硬件环境

Wed Dec 10 10:22:22 2025       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 580.82.09    Driver Version: 580.82.09    CUDA Version: 13.0             |
|-------------------------------+----------------------+------------------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Quadro P5000       Off  | 00000000:00:06.0 Off |                  Off |
| 26%   37C    P8     6W / 180W |    109MiB / 16384MiB |      0%      Default |
|   1  Quadro P5000       Off  | 00000000:00:07.0 Off |                  Off |
| 26%   32C    P8     6W / 180W |    109MiB / 16384MiB |      0%      Default |
+---------------------------------------------------------------------------------------+

2. 启动 LLaMa-Factory GPU 镜像

挂载模型、数据集和输出目录,支持 GPU 透传)

docker run -it --rm \--gpus=all \--ipc=host \--network=host \-v /root/niuben:/models/llama3 \-p 7860:7860 -p 8000:8000 \--name llamafactory-finetune \hiyouga/llamafactory:latest \/bin/bash

进入容器后(bash),验证环境:

nvidia-smi  # 确认 P5000 被识别
python -c "import torch; print(torch.cuda.is_available())"  # 应输出 True
pip list | grep -E "torch|transformers|peft"  # 检查核心库(已预装)

3. 关键补丁(最新镜像漏装了 bitsandbytes)

pip install --no-cache-dir bitsandbytes==0.44.1 -f https://jihulab.com/jianyuan/cuda-wheel-index/-/raw/main/

4. 开始 QLoRA 微调

这里 --dataset参数,使用了内置数据集 alpaca_en_demo,或者你可以指定自己的数据集路径

  • alpaca_en_demo # 经典 Alpaca 英文 52K 的精简版,只有 1000 条,专门给显存小的人练手,几十分钟就能跑完
  • identity_zh # 如果你想中文微调,直接改成这个(500 条高质量中文身份对齐数据)
  • sharegpt_zh # 或者这个(2万+ 中文 ShareGPT 数据,显存够的话可以用)

--quantization_bit: 4 指定了 4-bit 量化

llamafactory-cli train \--stage sft \--do_train \--model_name_or_path /models/llama3/Meta-Llama-3-8B-Instruct \--template llama3 \--finetuning_type lora \--lora_target q_proj,v_proj \--quantization_bit 4 \--dataset alpaca_en_demo \--cutoff_len 1024 \--output_dir /output/llama3-qlora-p5000 \--logging_steps 5 \--save_steps 200 \--per_device_train_batch_size 2 \--gradient_accumulation_steps 4 \--num_train_epochs 3 \--learning_rate 1e-4 \--bf16 \--gradient_checkpointing \--overwrite_output_dir

训练过程:会自动下载 tokenizer(如果缺失),开始 SFT。日志显示 loss 曲线。
监控:用 watch -n 0.1 nvidia-smi 观察 GPU 使用率。

5. 模型微调后,不合并模型,直接加载 LoRA 聊天

CLI 聊天

llamafactory-cli chat \--model_name_or_path /models/llama3/Meta-Llama-3-8B-Instruct \--adapter_name_or_path /output/llama3-qlora-p5000 \--template llama3 \--finetuning_type lora \--quantization_bit 4

或者你可以使用 Web UI,llamafactory-cli webui

6. 导出完整可部署模型(可选)

llamafactory-cli export \--model_name_or_path /models/llama3/Meta-Llama-3-8B-Instruct \--adapter_name_or_path /output/llama3-qlora-p5000 \--template llama3 \--finetuning_type lora \--export_dir /output/merged-llama3-8b-instruct-cn \--export_size 2 \--export_device cpu

导出后直接用下面命令聊天(不需要原模型了):

llamafactory-cli chat \--model_name_or_path /output/merged-llama3-8b-instruct-cn \--template llama3 \--quantization_bit 4

相关新闻

  • 苏州别墅装修公司怎么选?这几家口碑好到爆! - 品牌测评鉴赏家
  • 再见了,我的神兽朋友
  • 12月10日日记

最新新闻

  • 连云港GEO服务商代理加盟选型靠谱推荐哪家强?2026年连云港GEO优化服务商代理加盟排名与合作权益深度解析 - 小随科技
  • 2026年6月母线槽厂家推荐,高压型母线槽/封闭型母线槽/铝合金外壳母线槽/防火浇筑型母线槽,母线槽安装门店哪家好 - 品牌推荐师
  • Linux QT开发:从零构建MQTT客户端应用
  • 寮步镇Shopee选品培训:东南亚热销品深度分析 - 东莞选校指南
  • 上海配眼镜适合什么人?四类典型人群的镜片适配方案 - 配眼镜新资讯
  • 跨省寄快递省钱攻略 2026各家物流价格对比与技巧 - 快递物流资讯

日新闻

  • 5分钟掌握Python进化算法:Geatpy高性能优化工具完全指南
  • Microchip 24AA044 EEPROM选型与应用全指南:从参数解析到实战编程
  • 华为的鸿蒙到底有多牛?为什么称作遥遥领先?

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号