当前位置：首页 > news >正文

如何判断 SFT 到什么程度就可以开始做 RL

news 2026/6/13 17:15:05

SFT 负责建立基础能力（格式、指令遵循），RL 在此基础上优化输出质量。两者不能互相替代。过早做 RL 会导致训练崩溃，过晚做又会浪费算力。

一、做RL的目的是啥，和SFT有啥区别？

强化学习的本质是在已有策略的基础上，通过奖励信号进行局部优化。这意味着：RL 不是用来教会模型"能做什么"，而是用来优化"怎么做得更好"。

对比维度

对比维度	SFT（监督微调）	RL（强化学习/RLHF/DPO）
核心目标	让模型听懂指令、按要求输出	符合人类使用习惯，优化生成质量，强化安全合规
学习机制	token level学习目标内容，复刻指令对应的回答模式	以sequence level粒度，依据外界反馈调整生成策略
数据要求	需准备“instruction+answer”的高质量配对样本	需整理同一问题下“choosen/reject”回答的排序数据
实际效果	稳住输出底线，避免模型胡乱作答、脱离指令	突破基础baseline，让回答更精准、更符合预期

SFT没训好直接RL会有什么后果

如果 SFT 后的模型连基本任务都完成不了，RL 的探索空间会过大，奖励信号过于稀疏，训练会陷入：

低奖励陷阱：模型几乎拿不到正向奖励，梯度信号微弱
策略崩塌：模型为了避免惩罚，退化到输出安全但无意义的内容
KL 散度爆炸：策略更新幅度过大，偏离参考模型太远

二、什么时候可以停止 SFT

1. 格式和能力已对齐了

能按要求输出指定格式（JSON、代码块等），不会答非所问
比如指令理解准确率 > 85%

如果这些还没达到，RL 只会放大问题。

2. 性能达到上限

验证集Loss稳定，不再有波动
Pass Rate、准确率等关键指标多轮不再提升
继续加数据出现过拟合（训练集 Loss 降，验证集 Loss 不降甚至反升）

同时SFT 的上限由数据集质量决定，继续堆数据边际收益会越来越低。

3. pass@k 明显高于 pass@1

两者差距大，说明模型知道正确答案的形态，但输出不稳定。RL 可以把"偶尔正确"变成"稳定正确"。也不是pass@1 低就不能做 RL，可以观察pass@k / pass@1 的比值判断RL可以做的程度有多少

三、当前的一些主流训练路径

Deepseek R1训练过程，从 DeepSeek-R1-Zero 的纯 RL 探索，到 DeepSeek-R1 的“冷启动数据 -> 第一阶段 RL -> 拒绝采样与 SFT -> 第二阶段 RL”的pipeline

冷启动 SFT：用几千到几万条高质量样本建立基础。比如数据构成参考这个配比：指令遵循 30%、知识问答 30%、推理任务 20%、安全对齐 20%
RL 阶段：
Reasoning RL（代码、数学）：以结果校验为奖励信号，GRPO 或 PPO
Preference RL（主观任务、对齐）：用 Reward Model 或人类排序数据
循环迭代：收集 RL 筛选出的高质量样本，回头补一轮 SFT，再继续 RL。DeepSeek-R1 和 Qwen2.5-Math 都走了这条路。

四、来自不同场景的一些简单经验

1. 代码生成任务

SFT 目标：模型能生成语法正确、逻辑基本合理的代码

一般判断指标：

HumanEval / MBPP 上 pass@1 > 30%
语法错误率 < 10%
能正确处理简单的边界条件

RL 切入点：

用单元测试作为奖励信号（通过测试 = +1，否则 = 0）
引入过程奖励（如 HCAPO），对关键步骤（如循环条件、递归终止）给予额外奖励

2. 多模态推理任务

SFT 目标：模型能看懂图片，生成与图像相关的回答

判断指标：

简单视觉问答（如"图中有几个苹果"）准确率 > 60%
能生成包含视觉细节的描述（不是泛泛而谈）
推理链中会引用图像内容（如"根据图中的三角形"）

RL 切入点：

结合 GRPO 优化答案准确性

参考案例： Qwen3-VL 的强化微调，SFT 后在 MathVista 上约 45% 准确率，GRPO 后提升到 58%。

3. 长程 Agent 任务

SFT 目标：模型知道如何调用工具，能完成简单任务

判断指标：

单步工具调用成功率 > 70%
5-10步任务完成率 > 30%
能生成合法的工具调用参数（JSON 格式正确）

RL 切入点：

引入过程奖励模型（PRM），对每一步动作打分

案例： OpenClaw-RL 在工具调用任务上，SFT 后完成率 17%，引入 PRM 的 RL 后提升到 30%。

写在最后

SFT 越久越好：过度 SFT 会让模型失去探索能力
RL 能修复 SFT 数据质量差的问题：不能。RL 只能在 SFT 建立的基础上优化，SFT 阶段的问题会被放大，不会被修复。
pass@1 低就不能做 RL：观察pass@k / pass@1 的比值判断RL可以做的程度有多少

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～