ORPO: Monolithic Preference Optimization without Reference Model

作者： Jiwoo Hong, Noah Lee, James Thorne

提交日期： 2024年3月12日（v1），最后修订于2024年3月14日（当前版本v2）

摘要

尽管近期针对语言模型的偏好对齐算法展示了有前景的结果，监督微调（SFT）对于成功收敛仍然是必不可少的。本文研究了SFT在偏好对齐背景下的关键作用，强调了在偏好对齐的SFT中，对不鼓励的生成风格施加轻微的惩罚就已足够。基于此，我们引入了一种简单且创新的、无需参考模型的单一赔率比偏好优化算法——ORPO，它消除了额外偏好对齐阶段的必要性。我们从经验上和理论上证明了，在从125M到7B的不同规模模型的SFT过程中，赔率比（odds ratio）是区分受鼓励与不鼓励风格的合理选择。具体地，仅使用UltraFeedback数据集对Phi-2（2.7B）、Llama-2（7B）和Mistral（7B）进行ORPO微调，其性能就超越了超过7B和13B参数的最先进语言模型：在AlpacaEval 2.0上达到12.20%，在IFEval（指令级宽松）上达到66.19%，在MT-Bench上达到7.32。作者已发布Mistral-ORPO-α（7B）和Mistral-ORPO-β（7B）的代码和模型检查点。

主题/分类

主要学科： 计算与语言 (cs.CL)
相关学科： 人工智能 (cs.AI)

备注

预印本
arXiv ID: 2403.07691
DOI: https://doi.org/10.48550/arXiv.2403.07691

论文地址：https://arxiv.org/abs/2403.07691

13 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

ORPO：通过 odds ratio 偏好优化实现指令微调与对齐统一

ORPO: Monolithic Preference Optimization without Reference Model

摘要

主题/分类

备注