作者: Yann Dubois, Xuechen Li, Rohan Taori, Tianyi Zhang, Ishaan Gulrajani, Jimmy Ba, Carlos Guestrin, Percy Liang, Tatsunori B. Hashimoto
提交/修订日期: 2023年5月22日提交,2024年1月8日修订 (v4)
摘要:
像 ChatGPT 这样的大型语言模型因其强大的指令跟随能力而被广泛采用。开发这些模型涉及一个复杂但理解不足的工作流程,需要利用人类反馈进行训练。复现和理解这种指令跟随能力需要应对三大挑战:高昂的数据收集成本、缺乏可信的评估以及缺少参考方法实现。我们通过 AlpacaFarm 应对这些挑战,这是一个能够以低成本进行从反馈中学习的研究与开发的模拟器。首先,我们设计了用于模拟人类反馈的 LLM 提示,其成本比众包工作者低 50 倍,并且与人类显示出高度的一致性。其次,我们提出了一种自动评估方法,并针对在真实世界交互中获得的人类指令进行了验证。第三,我们贡献了多种从成对反馈中学习的方法的参考实现(如 PPO、DPO、best-of-n、专家迭代等)。最后,作为对 AlpacaFarm 的端到端验证,我们在 10k 对真实人类反馈上训练和评估了十一个模型,结果表明在 AlpacaFarm 中训练的模型排名与在人类数据上训练的模型排名相匹配。作为在 AlpacaFarm 中可能进行的研究的演示,我们发现使用奖励模型的方法可以显著优于监督微调,并且我们的参考 PPO 实现相对于 Davinci003 带来了 +10% 的胜率提升。我们在 https://github.com/tatsu-lab/alpaca_farm 发布了 AlpacaFarm 的所有组件。
主题/分类:
- 主要: 机器学习 (cs.LG)
- 其他: 人工智能 (cs.AI); 计算与语言 (cs.CL)
备注: 被 NeurIPS 2023 选为 Spotlight 论文。