作者: Kawin Ethayarajh, Winnie Xu, Niklas Muennighoff, Dan Jurafsky, Douwe Kiela
提交/修订日期: 2024年2月2日提交,2024年11月19日最新修订 (v4)
主题/分类: Machine Learning (cs.LG); Artificial Intelligence (cs.AI)
会议信息: ICML 2024
摘要:
Kahneman 和 Tversky 的前景理论指出,人类以一种有偏差但定义明确的方式感知随机变量(例如,人类是著名的损失厌恶者)。本文指出,用于将大语言模型与人类反馈对齐的目标函数隐式地融合了许多此类偏差——这些目标函数(例如 DPO)相对于交叉熵最小化的成功,部分可归因于它们属于一个我们称之为人类感知损失的损失函数家族。然而,这些方法赋予人类的效用函数仍与前景理论文献中的有所不同。基于 Kahneman-Tversky 的人类效用模型,我们提出了一种 HALO,它直接最大化生成结果的效用,而不是像现有方法那样最大化偏好的对数似然。我们将此方法称为 KTO。实验表明,在 1B 到 30B 的模型规模上,KTO 的性能达到或超过了基于偏好的方法,尽管它仅从一个关于输出是否理想的二元信号中学习。更广泛地说,我们的工作表明,不存在一个普遍最优的 HALO;最佳损失函数取决于最适合特定场景的归纳偏差,这是一个常被忽视的考量。