尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

强化学习人类反馈新训练法:SeRA算法详解

强化学习人类反馈新训练法:SeRA算法详解
📅 发布时间:2026/6/20 9:28:28
本文介绍了一种名为SeRA的改进强化学习人类反馈方法,通过筛选具有显著奖励差异的训练数据对来减少虚假关联,可将直接对齐算法的性能提升20%至40%,涉及DPO算法对比、自生成数据训练等技术细节。

一种更优的强化学习人类反馈训练方法

强化学习人类反馈已成为将大型语言模型与人类偏好对齐的标准方法。近期,直接偏好优化成为最流行的RLHF方法之一,其中LLM在两个输出选项中进行选择,其中一个被人类标注员标记为更优。

然而,直接偏好优化及其他类似的直接对齐算法存在一个问题:LLM可能从数据中学习到虚假的关联。例如,在毒性数据集中,严肃、深思熟虑的回复通常比冒犯性回复更长。在RLHF过程中,LLM可能因此学会偏爱较长的回复,而这在一般情况下并非更优。

在本届国际学习表征会议上,我们提出了一种限制此类虚假关联的方法,称之为SeRA。首先,在第一轮基于人类标注数据的RLHF之后,我们使用LLM本身生成额外的训练示例。然后,利用LLM的输出概率来评估训练对的偏好强度,仅保留那些首选回复被强烈偏好的数据对。

为了评估该方法,我们在四个基准数据集上,将使用SeRA训练的模型与三个基线模型进行比较。对于每个测试输入,我们将模型输出与每个基线模型的输出进行比较,并使用一个现成的LLM来选择更好的回复。SeRA训练模型在这些两两比较中的胜率全面高于所有三个基线模型,有时甚至高出20%到40%。

直接偏好优化

强化学习是一种试错方法,代理与世界互动,并根据其采取的行动获得或多或少的奖励。随着时间的推移,代理尝试学习一个最大化其累积奖励的策略。

在传统的RLHF中,奖励由一个单独的模型计算,该模型也在人类标注数据上训练。但这是一种耗时不具良好扩展性的方法。在DPO中,不需要第二个模型:如果LLM选择了人类偏好的输出,它就会获得奖励,否则不会。

DPO的缺点在于它平等对待所有训练对:无论首选输出是被强烈偏好还是仅被轻微偏好,奖励都是相同的。这增加了模型学习虚假关联的机会。

SeRA方法

使用SeRA,我们首先执行常规的DPO,使用人类标注的示例对数据集。在第一轮数据处理之后,LLM已经了解了人类偏好的输出类型。

然后,我们使用更新后的模型生成一组新的训练示例。对于每个生成的回复对,我们为每个回复分配一个偏好分数,该分数基于更新后模型生成该回复的概率。随后,我们仅保留那些首选回复分数显著高于非首选回复的数据对。

接下来,使用相同的指标,我们对原始人类标注数据集中的数据进行筛选。然后,我们将原始数据集中筛选出的样本与我们新生成的数据集中筛选出的样本合并,并再次执行DPO。这个过程不断重复,生成样本在数据集中的比例越来越大,直到模型性能收敛。

这里的直觉是,如果一个数据集旨在表示某种对比,但也包含虚假关联,那么预期的对比将显著大于非预期的对比。

这一假设在我们用于评估方法的四个基准数据集中成立,并且我们认为对于其他虚假关联来说,这也是一个合理的假设。但也可能存在该假设不成立的情况,因此在应用SeRA方法时,应监控模型的收敛行为。

虽然在实验中使用了DPO,但在论文中也展示了如何将该方法推广到其他直接对齐算法。最后,使用模型生成的数据来训练模型存在一定风险,即可能陷入反馈循环,导致模型过度放大初始数据集的某些方面。因此,在每轮数据处理中,模型的奖励不仅基于当前迭代,还基于过去的迭代,以确保训练数据特征特征的连续性。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

相关新闻

  • 从化精品咖啡店排名:权威榜单与深度测评 - 品牌测评家
  • 我们希望AI有多智能?世界模型可能比我们更懂世界
  • 2025年终AI搜索优化服务商优质推荐:2025年度最佳实战效果榜单 - 速递信息

最新新闻

  • 中兴光猫配置解密工具终极指南:如何轻松破解加密配置文件
  • Layerdivider:从传统抠图到智能分层的技术革命
  • Adobe-GenP 3.0终极指南:三步免费解锁Adobe全家桶完整功能
  • NETCONF/YANG协议与Netopeer2在工业网络自动化管理中的实践
  • 微信活动报名链接怎么做的,云帆投票+西瓜评选+腾讯投票,.投票系统横向测评 - 投票小程序
  • Kotlin 完整详细介绍

日新闻

  • 信任的进化:技术实现详解——如何用JavaScript构建博弈论模拟器
  • Terrakube自定义工作流:如何集成OPA、Infracost等工具扩展IaC能力
  • grunt-concurrent快速入门:5分钟学会并行运行Grunt任务

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号