强化学习人类反馈新训练法：SeRA算法详解-尧图网站建设

📅 发布时间：2026/6/20 9:28:28

一种更优的强化学习人类反馈训练方法

强化学习人类反馈已成为将大型语言模型与人类偏好对齐的标准方法。近期，直接偏好优化成为最流行的RLHF方法之一，其中LLM在两个输出选项中进行选择，其中一个被人类标注员标记为更优。

然而，直接偏好优化及其他类似的直接对齐算法存在一个问题：LLM可能从数据中学习到虚假的关联。例如，在毒性数据集中，严肃、深思熟虑的回复通常比冒犯性回复更长。在RLHF过程中，LLM可能因此学会偏爱较长的回复，而这在一般情况下并非更优。

在本届国际学习表征会议上，我们提出了一种限制此类虚假关联的方法，称之为SeRA。首先，在第一轮基于人类标注数据的RLHF之后，我们使用LLM本身生成额外的训练示例。然后，利用LLM的输出概率来评估训练对的偏好强度，仅保留那些首选回复被强烈偏好的数据对。

为了评估该方法，我们在四个基准数据集上，将使用SeRA训练的模型与三个基线模型进行比较。对于每个测试输入，我们将模型输出与每个基线模型的输出进行比较，并使用一个现成的LLM来选择更好的回复。SeRA训练模型在这些两两比较中的胜率全面高于所有三个基线模型，有时甚至高出20%到40%。

直接偏好优化

强化学习是一种试错方法，代理与世界互动，并根据其采取的行动获得或多或少的奖励。随着时间的推移，代理尝试学习一个最大化其累积奖励的策略。

在传统的RLHF中，奖励由一个单独的模型计算，该模型也在人类标注数据上训练。但这是一种耗时不具良好扩展性的方法。在DPO中，不需要第二个模型：如果LLM选择了人类偏好的输出，它就会获得奖励，否则不会。

DPO的缺点在于它平等对待所有训练对：无论首选输出是被强烈偏好还是仅被轻微偏好，奖励都是相同的。这增加了模型学习虚假关联的机会。

SeRA方法

使用SeRA，我们首先执行常规的DPO，使用人类标注的示例对数据集。在第一轮数据处理之后，LLM已经了解了人类偏好的输出类型。

然后，我们使用更新后的模型生成一组新的训练示例。对于每个生成的回复对，我们为每个回复分配一个偏好分数，该分数基于更新后模型生成该回复的概率。随后，我们仅保留那些首选回复分数显著高于非首选回复的数据对。

接下来，使用相同的指标，我们对原始人类标注数据集中的数据进行筛选。然后，我们将原始数据集中筛选出的样本与我们新生成的数据集中筛选出的样本合并，并再次执行DPO。这个过程不断重复，生成样本在数据集中的比例越来越大，直到模型性能收敛。

这里的直觉是，如果一个数据集旨在表示某种对比，但也包含虚假关联，那么预期的对比将显著大于非预期的对比。

这一假设在我们用于评估方法的四个基准数据集中成立，并且我们认为对于其他虚假关联来说，这也是一个合理的假设。但也可能存在该假设不成立的情况，因此在应用SeRA方法时，应监控模型的收敛行为。

虽然在实验中使用了DPO，但在论文中也展示了如何将该方法推广到其他直接对齐算法。最后，使用模型生成的数据来训练模型存在一定风险，即可能陷入反馈循环，导致模型过度放大初始数据集的某些方面。因此，在每轮数据处理中，模型的奖励不仅基于当前迭代，还基于过去的迭代，以确保训练数据特征特征的连续性。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

公众号二维码

公众号二维码