尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

解决GRPO优势归因错误,Chunk-GRPO让文生图模型更懂节奏

解决GRPO优势归因错误,Chunk-GRPO让文生图模型更懂节奏
📅 发布时间:2026/6/22 4:26:18

文本到图像(T2I)生成模型的发展速度超出很多人的预期。从SDXL到Midjourney,再到最近的FLUX.1,这些模型在短时间内就实现了从模糊抽象到逼真细腻的跨越。但问题也随之而来——如何让模型生成的不仅仅是"一张图",而是"正确的那张图"?这涉及到如何让AI理解人类在审美、风格和构图上的真实偏好。

强化学习(RL)成为解决这个问题的关键技术。通过将人类偏好分数作为奖励信号,可以对这些大模型进行微调。群体相对策略优化(GRPO)是近期比较热门的方案。但清华大学和快手的研究团队最近发现,这个方法存在一个隐藏的根本性缺陷。

这个缺陷会让模型学错东西,即便最终生成的图像看起来还不错。论文"SAMPLE BY STEP, OPTIMIZE BY CHUNK: CHUNK-LEVEL GRPO FOR TEXT-TO-IMAGE GENERATION"提出了一个叫Chunk-GRPO的解决方案,思路直接并且效果出众,算是训练生成模型思路上的一次转向。

GRPO的问题:不准确的优势归因

要理解Chunk-GRPO做了什么,得先搞清楚现有方法的问题出在哪。论文把这个问题叫做**"不准确的优势归因"**(inaccurate advantage attribution)。

可以用一个类比来说明。假设你在教学徒做酸面团面包,整个流程有17个步骤。学徒做了两个面包——面包A各方面都很棒,面包B勉强及格。作为师傅,你给A打了高分(+10),给B打了低分(+2)。

标准GRPO的做法相当于告诉学徒:"面包A的每一个步骤都比B好。"它把最终的高分奖励追溯性地分配给制作A的所有17个步骤。

但实际情况可能是,做A的第3步时学徒差点打翻面团,而做B的第3步手法其实很标准。标准GRPO仍然会奖励A的糟糕第3步,惩罚B的正常第3步,就因为最终结果不同。这就是"不准确的优势归因"——模型被强化的某个具体动作,单独看其实是个错误。训练几千次之后,这种错误的反馈信号会让模型困惑,导致训练不稳定,效果也达不到最优。

论文用图像生成的真实案例展示了这个问题:

 

https://avoid.overfit.cn/post/801e16bc6ddb464bbeb532f74cdceb91

相关新闻

  • 2025 年 10 月虎头鲨/沙塘鳢/呆子鱼/虾虎鱼养殖厂家推荐排行榜,鱼苗批发,成鱼价格,中华河川沙鳢,土憨巴塘鳢专业养殖公司精选!
  • 2025 年 11 月人造草坪足球场厂家最新推荐,榜单透视与选购要点!
  • 2025年11月人造草坪足球场厂家最新推荐,实力品牌深度解析采购无忧之选!

最新新闻

  • 2026 年 6 月万国维保网点实地核验报告,全国门店地址汇总(北京上海广州深圳网点地址名录公示) - 万国中国服务中心
  • 长效防静电・高承重耐腐|中天陶瓷防静电地板全解析 - 江苏中天庄美荃
  • 渭南市富平县2026年黄金回收本地靠谱门店 白银回收+铂金回收门店指南TOP5排行榜 优选门店汇总及电话地址推荐 - 盛世金银回收
  • Java国密SM4算法实战:从原理到ECB模式加解密完整实现
  • COMMIT与ROLLBACK不是按钮,而是事务生存机制
  • Sunshine游戏串流完整指南:打造你的家庭游戏共享中心

日新闻

  • 2026速览惠州叛逆青少年学校前十大排名名单出炉 - 武汉中职最新信息发布
  • 2026上饶白蚁消杀哪家好?15年本土2大权威白蚁防治公司推荐(金盾虫控/青蚁卫士) - 我叫一
  • 天龙八部单机版终极数据管理工具:5个技巧快速掌握游戏数据编辑

周新闻

  • Visual C++运行库修复终极指南:5分钟快速解决Windows软件启动错误
  • 手把手教你构建统计局地区经济数据爬虫:从环境搭建到数据持久化全指南
  • 2026多Agent深度解析:用AI团队替代单一模型,四种架构实战落地

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号