AlpacaFarm: 一个用于从人类反馈中学习方法的模拟框架

作者: Yann Dubois, Xuechen Li, Rohan Taori, Tianyi Zhang, Ishaan Gulrajani, Jimmy Ba, Carlos Guestrin, Percy Liang, Tatsunori B. Hashimoto

提交/修订日期: 2023年5月22日提交，2024年1月8日修订 (v4)

摘要:
像 ChatGPT 这样的大型语言模型因其强大的指令跟随能力而被广泛采用。开发这些模型涉及一个复杂但理解不足的工作流程，需要利用人类反馈进行训练。复现和理解这种指令跟随能力需要应对三大挑战：高昂的数据收集成本、缺乏可信的评估以及缺少参考方法实现。我们通过 AlpacaFarm 应对这些挑战，这是一个能够以低成本进行从反馈中学习的研究与开发的模拟器。首先，我们设计了用于模拟人类反馈的 LLM 提示，其成本比众包工作者低 50 倍，并且与人类显示出高度的一致性。其次，我们提出了一种自动评估方法，并针对在真实世界交互中获得的人类指令进行了验证。第三，我们贡献了多种从成对反馈中学习的方法的参考实现（如 PPO、DPO、best-of-n、专家迭代等）。最后，作为对 AlpacaFarm 的端到端验证，我们在 10k 对真实人类反馈上训练和评估了十一个模型，结果表明在 AlpacaFarm 中训练的模型排名与在人类数据上训练的模型排名相匹配。作为在 AlpacaFarm 中可能进行的研究的演示，我们发现使用奖励模型的方法可以显著优于监督微调，并且我们的参考 PPO 实现相对于 Davinci003 带来了 +10% 的胜率提升。我们在 https://github.com/tatsu-lab/alpaca_farm 发布了 AlpacaFarm 的所有组件。

主题/分类:
- 主要: 机器学习 (cs.LG)
- 其他: 人工智能 (cs.AI); 计算与语言 (cs.CL)

备注: 被 NeurIPS 2023 选为 Spotlight 论文。

论文地址：https://arxiv.org/abs/2305.14387

24 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

AlpacaFarm：低成本自动化评测与对齐指令跟随模型的方法

AlpacaFarm: 一个用于从人类反馈中学习方法的模拟框架