当前位置: 首页 > news >正文

强化学习人类反馈新训练法:SeRA算法详解

一种更优的强化学习人类反馈训练方法

强化学习人类反馈已成为将大型语言模型与人类偏好对齐的标准方法。近期,直接偏好优化成为最流行的RLHF方法之一,其中LLM在两个输出选项中进行选择,其中一个被人类标注员标记为更优。

然而,直接偏好优化及其他类似的直接对齐算法存在一个问题:LLM可能从数据中学习到虚假的关联。例如,在毒性数据集中,严肃、深思熟虑的回复通常比冒犯性回复更长。在RLHF过程中,LLM可能因此学会偏爱较长的回复,而这在一般情况下并非更优。

在本届国际学习表征会议上,我们提出了一种限制此类虚假关联的方法,称之为SeRA。首先,在第一轮基于人类标注数据的RLHF之后,我们使用LLM本身生成额外的训练示例。然后,利用LLM的输出概率来评估训练对的偏好强度,仅保留那些首选回复被强烈偏好的数据对。

为了评估该方法,我们在四个基准数据集上,将使用SeRA训练的模型与三个基线模型进行比较。对于每个测试输入,我们将模型输出与每个基线模型的输出进行比较,并使用一个现成的LLM来选择更好的回复。SeRA训练模型在这些两两比较中的胜率全面高于所有三个基线模型,有时甚至高出20%到40%。

直接偏好优化

强化学习是一种试错方法,代理与世界互动,并根据其采取的行动获得或多或少的奖励。随着时间的推移,代理尝试学习一个最大化其累积奖励的策略。

在传统的RLHF中,奖励由一个单独的模型计算,该模型也在人类标注数据上训练。但这是一种耗时不具良好扩展性的方法。在DPO中,不需要第二个模型:如果LLM选择了人类偏好的输出,它就会获得奖励,否则不会。

DPO的缺点在于它平等对待所有训练对:无论首选输出是被强烈偏好还是仅被轻微偏好,奖励都是相同的。这增加了模型学习虚假关联的机会。

SeRA方法

使用SeRA,我们首先执行常规的DPO,使用人类标注的示例对数据集。在第一轮数据处理之后,LLM已经了解了人类偏好的输出类型。

然后,我们使用更新后的模型生成一组新的训练示例。对于每个生成的回复对,我们为每个回复分配一个偏好分数,该分数基于更新后模型生成该回复的概率。随后,我们仅保留那些首选回复分数显著高于非首选回复的数据对。

接下来,使用相同的指标,我们对原始人类标注数据集中的数据进行筛选。然后,我们将原始数据集中筛选出的样本与我们新生成的数据集中筛选出的样本合并,并再次执行DPO。这个过程不断重复,生成样本在数据集中的比例越来越大,直到模型性能收敛。

这里的直觉是,如果一个数据集旨在表示某种对比,但也包含虚假关联,那么预期的对比将显著大于非预期的对比。

这一假设在我们用于评估方法的四个基准数据集中成立,并且我们认为对于其他虚假关联来说,这也是一个合理的假设。但也可能存在该假设不成立的情况,因此在应用SeRA方法时,应监控模型的收敛行为。

虽然在实验中使用了DPO,但在论文中也展示了如何将该方法推广到其他直接对齐算法。最后,使用模型生成的数据来训练模型存在一定风险,即可能陷入反馈循环,导致模型过度放大初始数据集的某些方面。因此,在每轮数据处理中,模型的奖励不仅基于当前迭代,还基于过去的迭代,以确保训练数据特征特征的连续性。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.rkmt.cn/news/153926.html

相关文章:

  • 从化精品咖啡店排名:权威榜单与深度测评 - 品牌测评家
  • 我们希望AI有多智能?世界模型可能比我们更懂世界
  • 2025年终AI搜索优化服务商优质推荐:2025年度最佳实战效果榜单 - 速递信息
  • 实用指南:2025认证杯数学建模D题思路分享(附源码,论文)
  • 开箱 NVIDIA DGX Spark:iPad mini尺寸实现千万亿次算力
  • AI编程智能体工作原理及使用注意事项
  • 有实力且靠谱!售后完善的 AI 搜索优化专业公司推荐 - 工业品网
  • 2025哪款减肥产品瘦身快?腰纪线多维营养代餐:科学重塑代谢,高效燃脂不反弹 - 速递信息
  • 2025年产后宝妈专属代餐推荐:科学控卡 + 营养护乳,轻松找回好状态 - 速递信息
  • VSCode + Gemini 3 Pro:6大实战场景+避坑指南,开发效率飙升10倍!
  • 运营述职 PPT 工具横评:效率与呈现谁更优
  • 人事行政述职 PPT 工具测评,适合中大型公司吗?
  • 2025保温管厂家综合实力排名:从产能到专利,河北陕拓与鑫龙日升领跑行业 - 爱采购寻源宝典
  • 2025 电缆线 厂家推荐排行榜:从产能到专利实力大比拼 - 爱采购寻源宝典
  • ROS2核心概念理清:功能包、可执行文件与节点的关系详解
  • 基于大数据+ECharts的数据可视化电商系统的设计与实现(程序+文档+讲解)
  • 广州体育培训基地排名:用户增长300%的黑马机构上榜 - 品牌测评家
  • 排序算法实战篇(一):6 大基础排序原理 + Python 代码 + 运行过程
  • 重试、死信与补偿策略——失败处置流水线的设计,防雪崩的节流思路
  • 记一次利用binlog进行数据恢复
  • 基于AI智能名片链动2+1模式S2B2C商城小程序的商户端微商平台构建研究
  • 【大气】多时相 InSAR 中空间变化分层大气延迟校正联合模型研究附Matlab代码
  • 【单磁铁磁场】【两个相斥磁铁】【两个相吸磁铁】【磁场分布 3d】附Matlab代码
  • 【毕业设计】基于springboot的旅游网站系统的设计与实现(源码+文档+远程调试,全bao定制等)
  • 计算机Java毕设实战-基于SpringBoot +Vue的动漫推荐系统设计与实现(协同过滤推荐算法)基于协同过滤算法的动漫推荐系统【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • 基于微信小程序的乡镇医院挂号预约系统毕设源码+文档+讲解视频
  • 【毕业设计】基于协同过滤算法的动漫推荐系统(源码+文档+远程调试,全bao定制等)
  • 基于微信小程序的新冠疫情防控信息管理系统毕设源码+文档+讲解视频
  • 2025门口摆件厂家综合实力排名 产能规模与专利技术双维度权威解析 - 爱采购寻源宝典
  • 算法讲解15:栈