尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

GSPO

GSPO
📅 发布时间:2026/6/19 22:05:25

暂时无法在飞书文档外展示此内容

Toy实验现象

问题引出

  • Grpo的loss函数中token-level的重要性采样的ratio会导致较大的训练梯度noise

  • 在长序列的情况下,clip的机制会加一步累积noise的方差

token-level的IS ratio方差大,不稳定

方法设计

  1. Sequence-Level IS Ratio

仅计算一个sequence的IS ratio,这里使用的是seqeunce ratio在长度上的逆次方,主要是normalize的作用。

进而将sequence ratio的量级->token ratio的量级

  1. Token-Level GSPO

是sequence-level的一般式,针对token-advantage不同的场景(PPO)

token-level IS ratio:sequence IS ratio数值* token IS ratio的方向(反向的梯度)

前向传播:每个token的IS ratio的数值是一样的,都是sequence-level ratio

反向传播:当token的A都相同时,与sequence-level GSPO相同,

实验结果

GSPO裁剪token的数量更多(因为是一整个sequence的clip),但acc更高

节省flops计算资源,效果更好

得出结论

GSPO解决了GRPO中重要性采样粒度与Advantage粒度不对齐的问题

通过clip更多的token,减少反向传播的计算量,并提高了acc

疑问

Q:如何选取gspo的clip的上下界,sequence IS ratio 可以看作是token IS ratio的正则化,那么偏差确实会小一些,论文给出的是【3e-4,4e-4】,原始的grpo是【0.2,0.27】。

为什么一个right clip大,一个right clip小呢。。。

A: grpo中Right clip大是为了更好的探索小概率token的,但是gspo却抑制小概率sequence的探索。可能是因为sequence的normalize后稳定性很好,那么小概率的sequence大概率是不可取的,也就没有探索的必要。

相关新闻

  • 2025 年制袋机源头厂家最新推荐排行榜权威发布:30 项专利加持企业领衔,细分领域新锐品牌深度盘点
  • 日记6
  • 日记7

最新新闻

  • 2026年5月美国零售销售月率超预期
  • nuScenes数据集实战指南(一)——环境配置与数据初探
  • 2026合肥十大叛逆戒网瘾学校排名|央视推荐+真实案例,家长必看避坑指南 - 辛云教育资讯
  • 嵌入式GUI性能调优:emWin诊断三板斧与API调试实战
  • 松鼠软件管家
  • 刑事合规律师事务所:企业如何选型?三大评估维度与合规服务评测 - 品牌2026

日新闻

  • 信任的进化:技术实现详解——如何用JavaScript构建博弈论模拟器
  • Terrakube自定义工作流:如何集成OPA、Infracost等工具扩展IaC能力
  • grunt-concurrent快速入门:5分钟学会并行运行Grunt任务

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号