LlamaFactory数据处理管线深度解析：模板驱动的数据加载与packing优化-尧图网站建设

📅 发布时间：2026/6/22 7:10:39

1. 项目概述：为什么读懂 LlamaFactory 的数据处理管线，比调参还重要

LlamaFactory 这个名字在大模型微调圈子里，已经不是新鲜词了。但真正能说清楚它内部“数据怎么进、怎么变、怎么出”的人，其实不多。我带过三轮大模型微调实战训练营，每次开课前都会让学员先跑通 LlamaFactory 的sft示例，结果总有至少三分之一的人卡在数据加载报错上——不是 JSONL 格式少了个逗号，就是template名字拼错了，再或者max_length设得比最长样本还短，训练直接 OOM。这些都不是模型问题，全是数据处理管线（Data Processing Pipeline）没理顺导致的。LlamaFactory 的核心价值，从来不在它封装了多少 Trainer 类，而在于它把从原始文本到 tokenized batch 的整条链路，用一套高度可配置、可复用、可调试的模块串了起来。这条管线不是黑盒，它由data_collator、dataset、template、tokenizer四个关键齿轮咬合驱动，任何一个齿磨损，整台机器就抖。你不需要背下全部源码，但必须知道data.py里get_dataset函数是怎么根据dataset_name_or_path和template动态加载并转换数据的；必须明白AlpacaTemplate和ChatGLMTemplate在拼接input_ids时，对system、user、assistant字段的截断逻辑有何本质差异；更要清楚PackingSampler是如何在不打乱语义的前提下，把多个短样本“塞”进一个长序列里的——这直接关系到 GPU 显存利用率能不能从 45% 拉到 78%。这篇文章不讲怎么装环境、不讲怎么跑 demo，只聚焦一个点：把llamafactory/data/目录下的每一行关键代码，掰开、揉碎、还原成你能在自己项目里直接复用的逻辑。如果你正卡在数据加载失败、loss 曲线异常震荡、或微调后模型胡言乱语，那大概率不是模型架构的问题，是你的数据还没真正“准备好”。

2. 数据处理管线整体设计与思路拆解

2.1 管线不是线性流程，而是三层嵌套结构

很多人误以为 LlamaFactory 的数据处理是一条从左到右的直线：读文件 → 清洗 → 分词 → 组 batch。实际翻看data.py的get_dataset函数，会发现它是一个典型的三层嵌套结构：数据源层（Source Layer）→ 模板层（Template Layer）→ 批处理层（Batching Layer）。这三层不是并列关系，而是逐级抽象、逐级增强语义的过程。

第一层，数据源层，解决“数据从哪来、长什么样”的问题。LlamaFactory 支持json,jsonl,csv,arrow四种格式，但底层统一通过 Hugging Face Datasets 库的load_dataset加载。关键点在于：它不直接操作原始 dict，而是立刻将每个样本包装成Dict[str, Any]并注入一个_format方法。这个方法不是立即执行，而是作为“待办事项”挂载在样本对象上。这意味着，哪怕你传入的是一个纯文本 CSV，只要字段名匹配instruction、input、output，后续模板层就能识别并调用对应逻辑。我试过把一份没有input字段的问答数据强行塞进去，结果AlpacaTemplate的encode_oneline函数在尝试访问example["input"]时直接抛KeyError，错误堆栈清晰指向template.py第 87 行——这说明设计者刻意把校验前置到了模板层，而不是在数据加载时做宽泛的字段检查，既保证了灵活性，又让错误定位更精准。

第二层，模板层，解决“数据该怎么说、谁来说、怎么说”的问题。这是 LlamaFactory 最具特色的部分。template.py里定义了十几种模板类，每个类都继承自Template基类，并重写encode_oneline和encode_multiturn两个核心方法。以QwenTemplate为例，它的encode_oneline会把单轮对话拼成<|im_start|>system\n{system}<|im_end|><|im_start|>user\n{query}<|im_end|><|im_start|>assistant\n{response}<|im_end|>，而Llama3Template则用<|start_header_id|>system<|end_header_id|>\n\n{system}<|eot_id|>这套新语法。重点来了：这些模板不是静态字符串替换，而是动态计算input_ids和labels的掩码。比如在encode_oneline中，system和user部分的 token 对应的labels全部设为-100（PyTorch 的 ignore index），只有assistant部分的 token 才保留真实 label。这个逻辑决定了模型只学习“如何回答”，而不学习“如何提问”或“如何设定角色”。我在微调一个客服对话模型时，曾误把user部分也设为可学习 label，结果模型在推理时疯狂复述用户问题，根本不会生成答案——这就是没吃透模板层语义的典型后果。

第三层，批处理层，解决“怎么高效喂给 GPU、怎么平衡显存和吞吐”的问题。data_collator.py里的DataCollatorForSeq2Seq是主力，但它只是“组装工”，真正的调度权在Trainer的data_collator参数里。LlamaFactory 的高明之处在于，它把packing（打包）和padding（填充）彻底解耦。传统做法是先 padding 到固定长度再 pack，导致大量 padding token 浪费显存。而 LlamaFactory 的PackingSampler会先按max_length对所有样本做预估，然后用贪心算法把多个短样本“缝合”成一个接近max_length的长序列，最后才做一次全局 padding。实测下来，同样max_length=4096，开启 packing 后，单卡 batch_size 从 2 提升到 6，GPU 显存占用反而下降 12%，因为 padding token 减少了近 65%。这背后是PackingSampler对length_field的精准预估——它默认用input_ids长度，但你可以通过length_field="token_length"自定义字段，这对处理图像-文本多模态数据特别有用。

2.2 为什么选择“模板驱动”而非“规则驱动”？

市面上不少微调框架采用硬编码规则处理数据，比如写死if "instruction" in example: ... elif "query" in example: ...。LlamaFactory 坚决放弃这条路，转而用模板类做抽象，原因有三：

第一，语义隔离性。不同模型对对话结构的理解天差地别。Llama 系列强调角色头（<|start_header_id|>），Qwen 系列用<|im_start|>，而 ChatGLM 则是[Round x]。如果用 if-else 规则，每新增一个模型就要改一堆条件分支，极易出错。而模板类把所有模型特异性逻辑封装在独立文件里，template.py只负责调度，新增支持只需写一个新类并注册，零侵入。

第二，调试可见性。当数据出错时，你能在日志里直接看到Using template: QwenTemplate，然后立刻跳转到对应类的encode_oneline方法，一行行 debug 输入输出。而规则驱动的代码，错误可能散落在十几个 if 分支里，定位成本极高。我曾经帮一个团队排查 loss 突然飙升的问题，最终发现是ChatGLMTemplate的encode_multiturn在处理三轮以上对话时，漏掉了最后一轮的</s>结束符，导致 labels 错位——这个 bug 在模板类里一眼就能看出，在 if-else 里找了两天。

第三，组合扩展性。模板不是孤立的。AlpacaTemplate可以被AlpacaZhTemplate继承并覆盖system字段的默认值；Llama3Template可以复用Llama2Template的大部分逻辑，只重写 header 语法。这种基于类的继承体系，比字符串拼接规则灵活得多。我们有个项目需要同时支持中英文双语指令微调，直接新建BilingualAlpacaTemplate，在encode_oneline里加两行判断if example.get("lang") == "zh": ... else: ...，五分钟后就跑通了，完全不用动数据加载主逻辑。

2.3 管线设计中的关键取舍：速度 vs 灵活性 vs 内存

任何工程设计都是取舍的艺术。LlamaFactory 在数据管线上的几个关键决策，直接决定了它的适用边界：

取舍一：是否预加载全部数据到内存？
答案是否定的。get_dataset默认使用StreamingDataset（流式加载），尤其对arrow格式，它会按需从磁盘读取 chunk，而不是一次性 load_into_memory。这对百亿 token 级别的数据集至关重要。我试过加载一个 200GB 的arrow数据集，如果强制load_into_memory=True，Python 进程直接被系统 kill。而 streaming 模式下，内存占用稳定在 1.2GB 左右，完全可控。代价是首次 epoch 启动稍慢（约多 3 秒），但后续 epoch 速度几乎无损，因为 OS 缓存已生效。

取舍二：是否支持动态长度 batch？
答案是部分支持。DataCollatorForSeq2Seq默认要求同 batch 内所有样本 padding 到相同长度，这是为了 CUDA kernel 的高效执行。但 LlamaFactory 提供了packing作为替代方案——它牺牲了“绝对等长”，换来了“平均长度更优”。实测显示，在max_length=4096下，packing 后的平均 batch 长度是 3820，而传统 padding 是 4096，有效 token 率提升 6.7%。不过要注意，packing 会打乱原始样本顺序，对需要严格保序的任务（如时间序列预测）不适用。

取舍三：是否内置数据清洗？
答案是极简。LlamaFactory 几乎不提供remove_duplicate,filter_by_length这类高级清洗函数，只保留最基础的filter（基于字段存在性）和map（通用转换）。理由很现实：数据清洗高度依赖业务场景。客服数据要过滤敏感词，代码数据要保留缩进，法律文书要保留条款编号——通用清洗函数要么太弱，要么太强。所以它把清洗逻辑完全交给用户，通过--preprocessing_func参数传入自定义函数。我们在处理医疗问答数据时，写了专门的clean_medical_text函数，过滤掉所有非中文字符、标准化医学术语缩写、并确保output字段不为空，这个函数直接作为参数传给train.py，干净利落。

3. 核心细节解析与实操要点

3.1`template.py`：模板类的构造逻辑与字段映射机制

template.py是整个数据管线的“心脏起搏器”，它决定了原始 JSON 字段如何映射为模型可理解的 token 序列。理解它的核心，在于抓住三个关键词：字段绑定（Field Binding）、角色标记（Role Token）、标签掩码（Label Masking）。

先看字段绑定。每个模板类的__init__方法里，都有类似self.system = system和self.user = user的赋值。这里的system和user不是字符串常量，而是从配置中传入的字段名。比如你在train_args.yaml里写：

dataset_info: my_data: hf_hub_url: null script_url: null dataset_name: my_data dataset_sha1: null template: qwen system: "你是一个专业的医生"

那么QwenTemplate(system="你是一个专业的医生")就会被实例化，self.system就是这个字符串。但注意，这个字符串只用于填充system角色块，真正的字段映射发生在encode_oneline里。以AlpacaTemplate为例，它的encode_oneline会这样取值：

system = example.get("system", self.system) # 优先取样本里的 system 字段，没有则用模板默认值 query = example.get("instruction", "") + example.get("input", "") response = example.get("output", "")

这里的关键是example.get("instruction", "")—— 它明确告诉开发者：这个模板期望样本里有instruction字段。如果你的数据里叫prompt，那就必须在加载前用map函数重命名：dataset = dataset.rename_column("prompt", "instruction")。我踩过的最大坑，就是拿到一份叫question/answer的数据，没重命名就直接跑，结果query变成空字符串，模型学了一堆"" -> response，完全失效。

再看角色标记。所有模板类都定义了system_token,user_token,assistant_token这些属性。QwenTemplate是"<|im_start|>system\n","<|im_start|>user\n","<|im_start|>assistant\n"；Llama3Template是"<|start_header_id|>system<|end_header_id|>\n\n","<|start_header_id|>user<|end_header_id|>\n\n","<|start_header_id|>assistant<|end_header_id|>\n\n"。这些 token 不是随便写的，它们必须和 tokenizer 的 vocab 完全一致。我曾经把Llama3Template的assistant_token里的\n\n多写了一个，变成\n\n\n，结果 tokenizer.encode 时返回空 list，后续input_ids全是空，训练直接崩。排查方法很简单：在encode_oneline开头加一行print(f"system_token: {self.system_token!r}, encoded: {tokenizer.encode(self.system_token)}")，立刻就能看到编码结果。

最后是标签掩码。这是最容易被忽略，却最关键的一环。encode_oneline的返回值是一个 dict，包含input_ids,attention_mask,labels三个 key。其中labels的构造逻辑是：

labels = input_ids[:] # 先复制一份 # 把 system 和 user 部分的 label 设为 -100 labels[:len(system_ids)] = [-100] * len(system_ids) labels[len(system_ids)+len(user_ids):len(system_ids)+len(user_ids)+len(assistant_ids)] = assistant_ids[:]

注意，assistant_ids是tokenizer.encode(response)的结果，而labels的对应位置必须和assistant_ids长度一致。如果response很长，被 tokenizer 截断了，assistant_ids长度就小于预期，labels的索引就会错位。解决方案是在encode_oneline里加长度校验：

if len(assistant_ids) > max_target_length: assistant_ids = assistant_ids[:max_target_length] # 同时 truncating labels accordingly

这个max_target_length通常设为max_length // 2，需要你自己在模板类里定义并传入。

3.2`data_collator.py`：批处理的核心逻辑与 padding 策略

DataCollatorForSeq2Seq看似简单，实则暗藏玄机。它的核心任务是把一个List[Dict]（每个 dict 是一个样本的input_ids,labels等）组装成一个 batch 的 tensor。但关键在于，它不做任何长度裁剪，只做 padding 和 masking。

先看 padding 逻辑。collator 默认使用tokenizer.pad_token_id作为 padding value，但labels的 padding value 必须是-100。所以它内部会这样处理：

batch_input_ids = pad_sequence([torch.tensor(x["input_ids"]) for x in features], batch_first=True, padding_value=tokenizer.pad_token_id) batch_labels = pad_sequence([torch.tensor(x["labels"]) for x in features], batch_first=True, padding_value=-100) # 注意这里是 -100！

这个细节决定了：如果你的labels里不小心混入了pad_token_id（比如手动构造时写错了），模型就会试图学习“如何生成 padding token”，loss 会异常高。我在调试一个低资源语言微调时，发现labels的 padding 值被误设为0，结果模型疯狂输出<unk>token，花了半天才定位到 collator 的这一行。

再看 attention mask。collator 会为每个样本生成attention_mask，值为1的位置表示有效 token，0表示 padding。但注意，attention_mask是input_ids的 mask，不是labels的 mask。labels的 mask 是靠-100实现的，两者机制完全不同。很多新手会混淆，以为attention_mask=0的位置labels也会被忽略，这是错的。labels只认-100，其他任何值都会参与 loss 计算。所以如果你的labels里有0（比如某个 token id 就是 0），它就会被当成真实 label 学习——这在某些 tokenizer 里是真实存在的。

最后是 packing 策略。PackingSampler的核心是pack方法，它接收一个List[int]（每个 int 是样本长度），返回一个List[List[int]]（每个子 list 是一个 packed batch 的样本索引）。它的贪心算法很简单：

按长度降序排序所有样本；
初始化一个空的 packed batch；
遍历排序后的样本，如果当前样本长度 + 当前 packed batch 总长度 <=max_length，就加入；
否则，把当前 packed batch 输出，并新建一个 batch。这个算法保证了每个 packed batch 尽可能满，但缺点是无法回溯优化。实测中，对于长度分布极不均匀的数据（比如 90% 样本 < 100 token，10% > 2000 token），packing 效果会打折扣。此时建议先用filter把超长样本单独拎出来，用max_length=8192单独处理，其余样本用max_length=4096packing，整体效率更高。

3.3`data.py`：`get_dataset`函数的完整执行路径与配置解析

get_dataset是数据管线的总入口，它的执行路径决定了你配置的每一个参数如何落地。我们以最常用的--dataset my_data --template qwen为例，走一遍完整路径：

第一步，解析dataset参数。get_dataset首先调用get_dataset_list，它会检查my_data是否在DATA_ARGS预定义字典里。如果没有，就尝试从本地路径或 HF Hub 加载。关键点在于dataset_name_or_path的解析逻辑：如果字符串里有/，就当作本地路径；如果包含.，就当作文件名；否则当作 HF 数据集名。我曾经把数据放在./data/my_data.jsonl，但命令里写--dataset data/my_data.jsonl，结果 LlamaFactory 报错Dataset not found，因为data/my_data.jsonl被当作了 HF 数据集名，去网上找了。正确写法是--dataset ./data/my_data.jsonl，加./前缀明确告诉它是本地路径。

第二步，加载原始数据。调用load_dataset，返回一个DatasetDict。如果是单文件，就是{"train": Dataset}；如果是多 split，就是{"train": ..., "validation": ...}。get_dataset会根据training_args.do_eval自动选择train或validationsplit。这里有个隐藏坑：load_dataset默认split="train"，但如果你的数据文件叫dev.jsonl，它不会自动识别为 validation，必须显式写--eval_dataset dev.jsonl。

第三步，应用模板。这是最关键的一步。get_dataset会根据template参数，从TEMPLATE_MAPPING字典里找到对应的模板类，然后实例化。比如template="qwen"，就找到QwenTemplate。接着，它调用dataset.map()，把模板的encode_oneline函数应用到每个样本上。注意，map是 lazy 的，不会立即执行，而是返回一个Dataset对象，其features已更新为{'input_ids': Sequence(feature=Value(dtype='int32')), 'labels': Sequence(...), ...}。你可以用next(iter(dataset))查看第一个样本，确认input_ids和labels是否生成成功。

第四步，过滤和采样。get_dataset会执行dataset.filter(lambda x: len(x["input_ids"]) <= max_length)，这是硬性截断，防止 OOM。但注意，这个 filter 发生在模板编码之后，所以它过滤的是input_ids长度，不是原始文本长度。这意味着，即使你的原始文本很短，如果 tokenizer 编码后超长（比如含大量 emoji 或特殊符号），也会被过滤掉。我在处理社交媒体数据时，发现 15% 的样本被无声过滤，日志里只有一行Filtered 1234 examples，根本不知道原因。后来加了dataset.map(lambda x: {"raw_len": len(x["instruction"]), "token_len": len(x["input_ids"])})，才定位到是 emoji 导致 token 爆增。

第五步，设置格式。最后调用dataset.with_format("torch")，把Dataset转为 PyTorch 可用的格式。这一步会把所有字段转为torch.Tensor，但注意，它只转换你map后定义的字段。如果你在encode_oneline里忘了 returnattention_mask，那with_format("torch")后的 batch 就没有这个字段，Trainer 会报错KeyError: 'attention_mask'。所以务必在encode_oneline里 return 完整的 dict。

4. 实操过程与核心环节实现

4.1 从零构建一个自定义模板：以医疗问答场景为例

假设你有一份医疗问答数据，格式如下：

{ "question": "高血压患者可以吃阿司匹林吗？", "answer": "一般不建议。阿司匹林主要用于抗血小板聚集，高血压患者若无明确适应症（如冠心病、脑卒中二级预防），长期服用可能增加出血风险。", "department": "心血管内科", "difficulty": "中级" }

标准模板（如AlpacaTemplate）无法直接使用，因为字段名不匹配，且需要注入科室信息。下面手把手教你写一个MedicalAlpacaTemplate。

首先，创建template_medical.py：

from llamafactory.data.template import Template class MedicalAlpacaTemplate(Template): def __init__( self, system: str = "你是一位资深的中国执业医师，请根据以下信息，用专业、易懂的语言回答患者问题。", separator: str = "\n\n", **kwargs ): super().__init__(system=system, separator=separator, **kwargs) def encode_oneline( self, tokenizer, example, max_length: int, system: str = None, query: str = None, response: str = None, history: list = None, prefix: str = "", **kwargs ) -> dict: # 1. 构建 system message，注入科室信息 dept = example.get("department", "全科") system_msg = f"{system} 你专精于{dept}领域。" # 2. 构建 query，合并 question 和 difficulty diff = example.get("difficulty", "初级") query_text = f"【难度：{diff}】{example.get('question', '')}" # 3. 构建 response response_text = example.get("answer", "") # 4. 调用父类 encode_oneline，但传入定制化内容 return super().encode_oneline( tokenizer=tokenizer, example={"instruction": query_text, "input": "", "output": response_text}, max_length=max_length, system=system_msg, **kwargs )

注意几个关键点：

system_msg动态注入department，让模型知道自己是哪个科室的医生；
query_text加入difficulty标签，引导模型调整回答深度；
example参数被重构成标准instruction/input/output结构，复用AlpacaTemplate的编码逻辑，避免重复造轮子。

然后，在template.py的TEMPLATE_MAPPING字典里注册：

TEMPLATE_MAPPING = { # ... 其他模板 "medical_alpaca": MedicalAlpacaTemplate, }

最后，在训练命令中指定：

llamafactory-cli train \ --model_name_or_path /path/to/llama3 \ --dataset ./data/medical_qa.jsonl \ --template medical_alpaca \ --finetuning_type lora \ --output_dir ./output/medical_lora

实测效果：微调后的模型在回答时，会自然带上科室背景，比如“作为心血管内科医生，我建议……”，且对“初级”难度问题会用更通俗的比喻，对“高级”问题会引用指南原文。这证明模板层的动态注入是有效的。

4.2 Packing 模式的完整配置与性能对比

Packing 是提升吞吐的利器，但配置不当反而拖慢训练。以下是经过生产环境验证的完整配置方案。

首先，确认你的数据适合 packing。运行以下脚本分析长度分布：

from datasets import load_dataset import numpy as np ds = load_dataset("json", data_files="./data/train.jsonl")["train"] lengths = [len(x["input_ids"]) for x in ds] print(f"Min: {np.min(lengths)}, Max: {np.max(lengths)}, Mean: {np.mean(lengths):.1f}") print(f"95% percentile: {np.percentile(lengths, 95):.0f}")

如果 95% 分位数 <max_length * 0.7，packing 效果显著；如果 >max_length * 0.95，packing 几乎无效。

然后，配置train_args.yaml：

# 关键：启用 packing packing: true # 设置合理的 max_length，packing 的上限 max_length: 4096 # packing 的核心参数：每个 packed batch 的目标长度 packing_max_length: 4096 # 防止单个超长样本霸占整个 batch packing_drop_last: true # 丢弃无法完整 pack 的剩余样本 # 数据加载优化 num_workers: 4 prefetch_factor: 2

packing_max_length是精髓。它不是max_length的别名，而是 packing 算法的目标长度。如果设为8192，算法会尽量把样本 pack 到 8192，但你的max_length还是 4096，会导致input_ids被截断，labels错位。所以packing_max_length必须 <=max_length。我们线上集群的黄金配比是packing_max_length = max_length * 0.95，即3890，这样既能保证利用率，又留有余量应对 tokenizer 的边界情况。

性能对比实测（A100 40G，Llama3-8B，LoRA）：

配置	Batch Size	GPU Memory	Samples/sec	Effective Token Rate
No Packing	2	38.2 GB	0.82	3350
Packing (3890)	6	33.7 GB	2.41	9380
Packing (4096)	5	35.1 GB	2.15	8790

可以看到，packing_max_length=3890时，有效 token 率提升 179%，显存下降 11.8%。而设为4096反而略低，因为更多样本因超长被丢弃。

4.3 数据加载失败的全流程排查与修复

数据加载失败是最高频问题。下面是一个真实案例的完整排查链路。

现象：运行llamafactory-cli train后，报错：

ValueError: Unable to decode 'input_ids' field with type 'Sequence(feature=Value(dtype='int32'))'

排查步骤一：定位错误源头
错误堆栈指向data.py第 127 行，dataset = dataset.map(...)。说明问题出在map过程中。map的输入是原始样本，输出是编码后的样本。错误提示Unable to decode 'input_ids'，意味着input_ids字段的类型不合法。

排查步骤二：检查原始数据格式
用head -n 1 ./data/train.jsonl看第一行：

{"question":"...","answer":"...","input_ids":[1,2,3,...]}

发现问题：数据里已经包含了input_ids字段！这是严重错误。LlamaFactory 要求原始数据是纯文本，input_ids必须由模板动态生成。这个字段是上一轮处理残留的，必须删除。用jq清洗：

jq 'del(.input_ids, .labels, .attention_mask)' ./data/train.jsonl > ./data/train_clean.jsonl

排查步骤三：验证模板编码
清洗后重跑，还是报错，但错误变了：

KeyError: 'instruction'

说明AlpacaTemplate.encode_oneline在尝试访问example["instruction"]。检查数据，字段名是question。解决方案有两个：

方案 A（推荐）：用map重命名字段：

ds = load_dataset("json", data_files="./data/train_clean.jsonl")["train"] ds = ds.rename_column("question", "instruction").rename_column("answer", "output") ds.save_to_disk("./data/train_renamed")

方案 B：写自定义模板，修改encode_oneline里的取值逻辑。

排查步骤四：检查 tokenizer 兼容性
重跑后，loss 为 nan。用debug模式启动：

llamafactory-cli train --debug True ...

日志里出现：

input_ids length: 0, labels length: 0

说明encode_oneline返回了空列表。打印tokenizer.encode("test")，发现返回[]。原因是 tokenizer 加载失败。检查--model_name_or_path，发现路径下缺少tokenizer.json，只有pytorch_model.bin。正确做法是，确保模型路径包含完整的 tokenizer 文件（tokenizer.json,tokenizer_config.json,vocab.txt等）。

最终修复清单：

✅ 删除原始数据中的input_ids等预编码字段；
✅ 重命名字段，匹配模板要求；
✅ 确认 tokenizer 文件完整；
✅ 在encode_oneline开头加assert len(input_ids) > 0, f"Empty input_ids for {example}"。

5. 常见问题与排查技巧实录

5.1 Loss 异常震荡或不下降：数据标签掩码的隐形杀手

Loss 震荡是数据管线最隐蔽的 bug。表面看是模型问题，实则 80% 源于labels构造错误。下面列出三种高频场景及诊断方法。

场景一：labels里混入了pad_token_id
症状：loss 初期极低（< 0.1），随后突然飙升到 10+，且反复震荡。
根因：DataCollatorForSeq2Seq的padding_value被误设为tokenizer.pad_token_id，而labels的 padding 应该是-100。
诊断：在data_collator.py的__call__方法里加日志：

print(f"First batch labels[0][:10]: {labels[0][:10].tolist()}") print(f"pad_token_id: {self.tokenizer.pad_token_id}")

如果输出里有labels包含pad_token_id（比如2），就确认了问题。
修复：确保pad_sequence调用时padding_value=-100，且只对labels使用，不对input_ids使用。

场景二：labels长度与input_ids不匹配
症状：loss 初期正常，几个 step 后变为nan，nvidia-smi显示 GPU 利用率 0%。
根因：encode_oneline返回的labels长度不等于input_ids长度，导致cross_entropy_loss输入维度错乱。
诊断：在encode_oneline结尾加断言：

assert len(input_ids) == len(labels), f"Length mismatch: {len(input_ids)} vs {len(labels)}"

常见于 tokenizer 截断后，labels没同步截断。
修复：在encode_oneline里，对input_ids和labels做统一截断：

if len(input_ids) > max_length: input_ids = input_ids[:max_length] labels = labels[:max_length] # 必须同步！

场景三：system和user部分的labels没设为-100
症状：loss 下降缓慢，模型在推理时复述用户问题，或生成无关的 system 指令。
根因：模板类的encode_oneline没正确设置labels掩码。
诊断：取一个样本，手动运行encode_oneline，打印 `labels

LlamaFactory数据处理管线深度解析：模板驱动的数据加载与packing优化