作者:Harrison Lee, Samrat Phatale, Hassan Mansoor, Thomas Mesnard, Johan Ferret, Kellie Lu, Colton Bishop, Ethan Hall, Victor Carbune, Abhinav Rastogi, Sushant Prakash
提交/修订日期:2023年9月1日提交,2024年9月3日修订(v3)
摘要:
基于人类反馈的强化学习(RLHF)已被证明能有效将大语言模型(LLMs)与人类偏好对齐,但收集高质量偏好标注的成本高昂。由Bai等人引入的基于AI反馈的强化学习(RLAIF)提供了一种有前景的替代方案,它使用现成的LLM生成的偏好来训练奖励模型(RM)。在摘要、有益对话生成和无害对话生成等任务中,我们证明RLAIF能达到与RLHF相当的性能。此外,我们向“自我改进”迈出了一步,证明即使AI标注器与策略模型大小相同,甚至是与初始策略完全相同的检查点,RLAIF也能超越监督微调的基线。最后,我们引入了直接RLAIF(d-RLAIF)——一种在RL过程中直接从现成的LLM获取奖励、从而绕过RM训练的技术,其性能优于经典的RLAIF。我们的结果表明,RLAIF可以达到与使用人类反馈相当的性能,为RLHF的可扩展性限制提供了一个潜在的解决方案。
主题/分类:
- 主要:计算与语言(cs.CL)
- 其他:人工智能(cs.AI);机器学习(cs.LG)
备注:在ICML 2024上发表。