RLAIF vs. RLHF：利用AI反馈扩展基于人类反馈的强化学习

作者：Harrison Lee, Samrat Phatale, Hassan Mansoor, Thomas Mesnard, Johan Ferret, Kellie Lu, Colton Bishop, Ethan Hall, Victor Carbune, Abhinav Rastogi, Sushant Prakash

提交/修订日期：2023年9月1日提交，2024年9月3日修订（v3）

摘要：
基于人类反馈的强化学习（RLHF）已被证明能有效将大语言模型（LLMs）与人类偏好对齐，但收集高质量偏好标注的成本高昂。由Bai等人引入的基于AI反馈的强化学习（RLAIF）提供了一种有前景的替代方案，它使用现成的LLM生成的偏好来训练奖励模型（RM）。在摘要、有益对话生成和无害对话生成等任务中，我们证明RLAIF能达到与RLHF相当的性能。此外，我们向“自我改进”迈出了一步，证明即使AI标注器与策略模型大小相同，甚至是与初始策略完全相同的检查点，RLAIF也能超越监督微调的基线。最后，我们引入了直接RLAIF（d-RLAIF）——一种在RL过程中直接从现成的LLM获取奖励、从而绕过RM训练的技术，其性能优于经典的RLAIF。我们的结果表明，RLAIF可以达到与使用人类反馈相当的性能，为RLHF的可扩展性限制提供了一个潜在的解决方案。

主题/分类：
- 主要：计算与语言（cs.CL）
- 其他：人工智能（cs.AI）；机器学习（cs.LG）

备注：在ICML 2024上发表。

论文地址：https://arxiv.org/abs/2309.00267

18 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

RLAIF：通过 AI 反馈强化学习实现模型对齐

RLAIF vs. RLHF：利用AI反馈扩展基于人类反馈的强化学习