作者: Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning, Chelsea Finn
提交/修订日期: 2023年5月29日提交,2024年7月29日修订(v3)
摘要:
虽然大规模无监督语言模型(LMs)学习了广泛的世界知识和一定的推理能力,但由于其训练完全是无监督的,实现对其行为的精确控制是困难的。现有的获得这种可控性的方法收集模型生成结果的相对质量的人工标注,并微调无监督语言模型以与这些偏好对齐,通常使用基于人类反馈的强化学习(RLHF)。然而,RLHF是一个复杂且通常不稳定的过程,首先需要拟合一个反映人类偏好的奖励模型,然后使用强化学习来微调大型无监督语言模型,以最大化这个估计的奖励,同时避免偏离原始模型太远。在本文中,我们为RLHF中的奖励模型引入了一种新的参数化方法,使得能够以闭式形式提取相应的最优策略,从而允许我们仅用一个简单的分类损失来解决标准的RLHF问题。由此产生的算法,我们称之为直接偏好优化(DPO),具有稳定、高性能和计算轻量的特点,消除了在微调过程中从语言模型采样或进行大量超参数调整的需要。我们的实验表明,DPO可以像现有方法一样好或更好地微调语言模型以与人类偏好对齐。值得注意的是,使用DPO进行微调在控制生成内容的情感方面超过了基于PPO的RLHF,并且在摘要和单轮对话中匹配或改进了响应质量,同时实现和训练起来要简单得多。
主题/分类:
- 主要:机器学习(cs.LG)
- 其他:人工智能(cs.AI);计算与语言(cs.CL)
arXiv标识符: arXiv:2305.18290