📅 发布时间：2026/6/20 3:51:44

大模型微调

1、模型微调概念

大模型微调（Fine-tuning）是指在预训练的大规模语言模型基础上，针对特定任务或领域进行进一步训练的过程。预训练模型通常是在大量通用文本数据上训练得到的，具有丰富的语言知识和理解能力。然而，在实际应用中，我们往往需要模型能够更好地适应特定的任务需求，如文本分类、情感分析、机器翻译等。

微调的基本步骤如下：

选择预训练模型：根据任务需求选择合适的预训练模型。常见的预训练模型包括BERT、GPT、RoBERTa等。
准备数据集：收集与特定任务相关的标注数据集。这些数据集应尽可能地反映任务的具体需求和特性。
冻结部分参数：为了保持预训练模型学到的通用知识，通常会冻结模型的部分参数（如前几层），只对后几层进行训练。这样可以在减少计算量的同时，防止模型遗忘已有的知识。
调整学习率：由于预训练模型已经在大量数据上进行了充分训练，因此在微调阶段通常需要使用较小的学习率以避免模型参数发生剧烈变化。
训练模型：使用特定任务的数据集对模型进行训练，并通过验证集监控模型性能，防止过拟合。
评估和优化：在测试集上评估模型的表现，并根据需要调整模型结构、超参数或数据增强策略以进一步提高模型性能。

通过微调，可以在不重新从头开始训练的情况下，快速提升模型在特定任务上的表现，同时保留了预训练模型的强大语言理解能力。

2、模型微调流程

2.1、算力服务器

如自身硬件条件满足忽略推荐智星云（https://gpu.ai-galaxy.cn/）或者 AutoDL（https://www.autodl.com/），

操作系统建议安装ubuntu20_cuda11.8

2.2、安装基础模型

可以在 HF-Mirror（https://hf-mirror.com/ ）中或者魔塔社区（https://www.modelscope.cn/）选择建议魔塔

git下载

sudo apt-get update
sudo apt-get install git #下载 git
sudo apt-get install git-lfs #下载 git-lfs
git init  #初始化git仓库
cd /root/.git/ #切换至git目录
git clone https://hf-mirror.com/Qwen/Qwen2.5-7B-Instruct #选择预训练模型文件（Instruct）预训练标识
rm -rf .git #删除git文件 避免磁盘空间不足

modelscope下载

#安装modelscope
pip install modelscope
#模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('Qwen/Qwen-7B-Chat')

下载后的默认位置：/root/.cache/modelscope/hub/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

2.3、安装LLaMa Factory

官网：https://llamafactory.readthedocs.io/zh-cn/latest/getting_started/installation.html

#安装
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"
#检查是否安装成功
llamafactory-cli version
#启动web服务
GRADIO_SERVER_PORT=8801 llamafactory-cli webui

2.4、Llama Factory Web UI功能介绍

2.4.1、基础配置

![image-20251106214416212](/Users/lijingyang/Library/Application Support/typora-user-images/image-20251106214416212.png)

2.4.2、主要功能模块介绍

Train：训练模型

Evaluate & Predict：评估与预测

Chat：对话，与模型对话，可以在这里同模型对话（首先加载模型）

Export：导出模型

![image-20251106214223265](/Users/lijingyang/Library/Application Support/typora-user-images/image-20251106214223265.png)

2.4.3、配置数据集

![image-20251106214604449](/Users/lijingyang/Library/Application Support/typora-user-images/image-20251106214604449.png)

训练结果指标解释

![image-20251106213639088](/Users/lijingyang/Library/Application Support/typora-user-images/image-20251106213639088.png)

各项参数含义详解:

epoch: 已完成的训练轮数。一个 epoch 意味着模型已经看过训练集中的所有样本一次
num_input_tokens_seen: 模型在训练过程中累计处理过的输入 token 总数。这对于理解模型接收了多少信息量很有帮助。这里的 "input tokens" 通常指 prompt + response（在 SFT 中）或者仅仅是 prompt（在预训练中，取决于具体实现和配置）。
total_flos: Total Floating Point Operations (FLOPs)。模型在整个训练过程中执行的总浮点运算次数。单位是 GFLOPs (Giga FLOPs, 十亿次浮点运算)。这里显示为 23981480 GF，即大约 2.4 x 10^13 FLOPs。这是一个衡量计算资源消耗的指标。
train_loss: 训练损失 (Training Loss)。这是模型在训练数据上的平均损失值。它是衡量模型预测与真实标签之间差异的指标。损失越低，通常表示模型拟合得越好（但也需警惕过拟合）。
train_runtime: 总训练耗时。格式为 hours:minutes:seconds.milliseconds。这里用了 5 分 23 秒。
train_samples_per_second: 每秒处理的样本（数据条目）数量。这里的 "samples" 通常指的是你数据集中的一个个条目（例如，一条问答对）。9.284 表示平均每秒处理了约 9.3 条数据。
train_steps_per_second: 每秒执行的训练步数 (Steps per Second)。一个 "step" 通常对应一次参数更新，也就是处理完一个批次（batch）的数据并计算梯度后更新一次模型权重。0.576 表示大约每秒完成 0.58 个训练步。这个指标更能反映训练的“频率”或“节奏”。

其他问题

Q：为什么加载不到Llama Factory中的默认数据集
A：在Llama Factory目录下启动Web UI即可Q：在Trin训练过程中报错，Chat对话持续无响应
A：从终端控制台查看报错信息，复制到AI中排查，如果问题是Pytorch等版本兼容问题，建议卸载当前版本根据AI建议安装，很多算力服务器默认镜像都提供基础环境，建议自己新建conda环境安装依赖
例子（具体需要匹配的版本请根据实际情况）：
pip uninstall torch torchvision torchaudio
pip install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 --index-url https://download.pytorch.org/whl/cu124

使用LLaMA Factory微调模型笔记