当前位置: 首页 > news >正文

如何判断 SFT 到什么程度就可以开始做 RL

SFT 负责建立基础能力(格式、指令遵循),RL 在此基础上优化输出质量。两者不能互相替代。过早做 RL 会导致训练崩溃,过晚做又会浪费算力。

一、做RL的目的是啥,和SFT有啥区别?

强化学习的本质是在已有策略的基础上,通过奖励信号进行局部优化。这意味着:RL 不是用来教会模型"能做什么",而是用来优化"怎么做得更好"。

对比维度

对比维度SFT(监督微调)RL(强化学习/RLHF/DPO)
核心目标让模型听懂指令、按要求输出符合人类使用习惯,优化生成质量,强化安全合规
学习机制token level学习目标内容,复刻指令对应的回答模式以sequence level粒度,依据外界反馈调整生成策略
数据要求需准备“instruction+answer”的高质量配对样本需整理同一问题下“choosen/reject”回答的排序数据
实际效果稳住输出底线,避免模型胡乱作答、脱离指令突破基础baseline,让回答更精准、更符合预期

SFT没训好直接RL会有什么后果

如果 SFT 后的模型连基本任务都完成不了,RL 的探索空间会过大,奖励信号过于稀疏,训练会陷入:

  • 低奖励陷阱:模型几乎拿不到正向奖励,梯度信号微弱
  • 策略崩塌:模型为了避免惩罚,退化到输出安全但无意义的内容
  • KL 散度爆炸:策略更新幅度过大,偏离参考模型太远

二、什么时候可以停止 SFT

1. 格式和能力已对齐了

  • 能按要求输出指定格式(JSON、代码块等),不会答非所问
  • 比如指令理解准确率 > 85%

如果这些还没达到,RL 只会放大问题。

2. 性能达到上限

  • 验证集Loss稳定,不再有波动
  • Pass Rate、准确率等关键指标多轮不再提升
  • 继续加数据出现过拟合(训练集 Loss 降,验证集 Loss 不降甚至反升)

同时SFT 的上限由数据集质量决定,继续堆数据边际收益会越来越低。

3. pass@k 明显高于 pass@1

两者差距大,说明模型知道正确答案的形态,但输出不稳定。RL 可以把"偶尔正确"变成"稳定正确"。也不是pass@1 低就不能做 RL,可以观察pass@k / pass@1 的比值判断RL可以做的程度有多少

三、当前的一些主流训练路径

Deepseek R1训练过程,从 DeepSeek-R1-Zero 的纯 RL 探索,到 DeepSeek-R1 的“冷启动数据 -> 第一阶段 RL -> 拒绝采样与 SFT -> 第二阶段 RL”的pipeline

  • 冷启动 SFT:用几千到几万条高质量样本建立基础。比如数据构成参考这个配比:指令遵循 30%、知识问答 30%、推理任务 20%、安全对齐 20%

  • RL 阶段

  • Reasoning RL(代码、数学):以结果校验为奖励信号,GRPO 或 PPO

  • Preference RL(主观任务、对齐):用 Reward Model 或人类排序数据

  • 循环迭代:收集 RL 筛选出的高质量样本,回头补一轮 SFT,再继续 RL。DeepSeek-R1 和 Qwen2.5-Math 都走了这条路。

四、来自不同场景的一些简单经验

1. 代码生成任务

SFT 目标: 模型能生成语法正确、逻辑基本合理的代码

一般判断指标

  • HumanEval / MBPP 上 pass@1 > 30%
  • 语法错误率 < 10%
  • 能正确处理简单的边界条件

RL 切入点

  • 用单元测试作为奖励信号(通过测试 = +1,否则 = 0)
  • 引入过程奖励(如 HCAPO),对关键步骤(如循环条件、递归终止)给予额外奖励

2. 多模态推理任务

SFT 目标: 模型能看懂图片,生成与图像相关的回答

判断指标

  • 简单视觉问答(如"图中有几个苹果")准确率 > 60%
  • 能生成包含视觉细节的描述(不是泛泛而谈)
  • 推理链中会引用图像内容(如"根据图中的三角形")

RL 切入点

  • 结合 GRPO 优化答案准确性

参考案例: Qwen3-VL 的强化微调,SFT 后在 MathVista 上约 45% 准确率,GRPO 后提升到 58%。

3. 长程 Agent 任务

SFT 目标: 模型知道如何调用工具,能完成简单任务

判断指标

  • 单步工具调用成功率 > 70%
  • 5-10步任务完成率 > 30%
  • 能生成合法的工具调用参数(JSON 格式正确)

RL 切入点

  • 引入过程奖励模型(PRM),对每一步动作打分

案例: OpenClaw-RL 在工具调用任务上,SFT 后完成率 17%,引入 PRM 的 RL 后提升到 30%。

写在最后

  • SFT 越久越好:过度 SFT 会让模型失去探索能力
  • RL 能修复 SFT 数据质量差的问题:不能。RL 只能在 SFT 建立的基础上优化,SFT 阶段的问题会被放大,不会被修复。
  • pass@1 低就不能做 RL:观察pass@k / pass@1 的比值判断RL可以做的程度有多少

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.rkmt.cn/news/1476820.html

相关文章:

  • 2022年软考-公司人事管理—软件设计师—东方仙盟
  • 2026年当下,如何选择一家靠谱的烘焙烤箱销售厂家?这份业内推荐请收好 - 2026年企业资讯
  • TMS320F280049C ADC实战:从ePWM触发到多通道采样,一个电机控制工程师的配置笔记
  • 黑客必备的一体化黑客工具
  • SPI驱动开发实战:轮询、中断与DMA模式详解与性能优化
  • 2026年Q2非晶带焊料评测:银焊膏、锡焊膏、锡青铜焊膏、镍焊膏、阻流剂、预制成型件、颗粒焊料、黄铜焊膏、定制焊料选择指南 - 优质品牌商家
  • 2026年通辽市名气TOP5装饰公司客观盘点:通辽靠谱装修/通辽二手房翻新/通辽别墅装修/通辽大宅装修/通辽大平层装修/选择指南 - 优质品牌商家
  • C语言如何直接控制硬件指针、内存与寄存器
  • 基于 Harmony 6.0 应用的健身训练计划生成器实现
  • 电动扫地机厂家突围策略:6大核心步骤+实操案例,破解竞争困局
  • 避坑指南:为什么NetBackup客户端一重启就报错25?深入分析vxpbx_exchanged服务
  • Mac/Linux下conda创建虚拟环境报InvalidArchiveError?一个权限问题引发的‘血案’与终极修复
  • 我把 LangGraph、RAG、Memory 、MCP 都拼进了 AI 助手, 领导说,你 太牛了
  • 电子阅读器成阅读首选,作者们喜爱的几款设备推荐
  • 小米手机2定价策略解析:供应链博弈与期货定价模式
  • 从零到一:基于项目实战的前端开发知识体系完全指南
  • 一张文章最多能加几个CSDN AI引流卡片?官方未公开的3个硬性阈值与动态限流逻辑揭秘
  • 基于 Harmony 6.0 应用的老人跌倒检测应用首页实现
  • 给汽车工程师的OBD实战手册:手把手教你用J1699-3协议完成PVE标准化验证
  • 2026年并网太阳能光伏排名,青海远景新能源上榜 - myqiye
  • 2026年 木纹铝方通厂家推荐:木纹铝方通品牌,室内吊顶木纹铝方通,户外装饰木纹铝方通源头工厂精选 - 品牌企业推荐师(官方)
  • 到底为什么PHP要有匿名函数?
  • CSDN推广链接批量修改全链路解析,从Token鉴权失败到URL Schema自动校验的7层防御机制
  • 去头屑洗发水哪个效果好?2026年测评去屑洗发水排行榜TOP1 - 新闻快传
  • Docker、firewalld和iptables的“三角关系”捋不清?一张图看懂流量到底怎么走的
  • 从传播入口看《你笑的时候》:一个歌名如何留住听众
  • 2026年当下万寿宫酒店哪家好?这份价值与体验并重的选型指南请查收 - 2026年企业资讯
  • 贾子真理定理(LWEVS 评价体系):去外部依赖的内在主义真理判定标准
  • AI 绘图工具别只看画面精致,素材来源、版权边界和可编辑层更值得复核
  • 用Vivado手把手教你搭建FPGA片间通信:基于AXI Chip2Chip与LVDS的完整仿真流程