OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2309.00267

RLAIF:通过 AI 反馈强化学习实现模型对齐

 
  beautiful ·  2026-03-21 18:50:13 · 2 次点击  · 0 条评论  

RLAIF vs. RLHF:利用AI反馈扩展基于人类反馈的强化学习

作者:Harrison Lee, Samrat Phatale, Hassan Mansoor, Thomas Mesnard, Johan Ferret, Kellie Lu, Colton Bishop, Ethan Hall, Victor Carbune, Abhinav Rastogi, Sushant Prakash

提交/修订日期:2023年9月1日提交,2024年9月3日修订(v3)

摘要
基于人类反馈的强化学习(RLHF)已被证明能有效将大语言模型(LLMs)与人类偏好对齐,但收集高质量偏好标注的成本高昂。由Bai等人引入的基于AI反馈的强化学习(RLAIF)提供了一种有前景的替代方案,它使用现成的LLM生成的偏好来训练奖励模型(RM)。在摘要、有益对话生成和无害对话生成等任务中,我们证明RLAIF能达到与RLHF相当的性能。此外,我们向“自我改进”迈出了一步,证明即使AI标注器与策略模型大小相同,甚至是与初始策略完全相同的检查点,RLAIF也能超越监督微调的基线。最后,我们引入了直接RLAIF(d-RLAIF)——一种在RL过程中直接从现成的LLM获取奖励、从而绕过RM训练的技术,其性能优于经典的RLAIF。我们的结果表明,RLAIF可以达到与使用人类反馈相当的性能,为RLHF的可扩展性限制提供了一个潜在的解决方案。

主题/分类
- 主要:计算与语言(cs.CL)
- 其他:人工智能(cs.AI);机器学习(cs.LG)

备注:在ICML 2024上发表。

2 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 31 ms
Developed with Cursor