OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2305.14387

AlpacaFarm:低成本自动化评测与对齐指令跟随模型的方法

 
  aero ·  2026-03-31 11:01:24 · 3 次点击  · 0 条评论  

AlpacaFarm: 一个用于从人类反馈中学习方法的模拟框架

作者: Yann Dubois, Xuechen Li, Rohan Taori, Tianyi Zhang, Ishaan Gulrajani, Jimmy Ba, Carlos Guestrin, Percy Liang, Tatsunori B. Hashimoto

提交/修订日期: 2023年5月22日提交,2024年1月8日修订 (v4)

摘要:
像 ChatGPT 这样的大型语言模型因其强大的指令跟随能力而被广泛采用。开发这些模型涉及一个复杂但理解不足的工作流程,需要利用人类反馈进行训练。复现和理解这种指令跟随能力需要应对三大挑战:高昂的数据收集成本、缺乏可信的评估以及缺少参考方法实现。我们通过 AlpacaFarm 应对这些挑战,这是一个能够以低成本进行从反馈中学习的研究与开发的模拟器。首先,我们设计了用于模拟人类反馈的 LLM 提示,其成本比众包工作者低 50 倍,并且与人类显示出高度的一致性。其次,我们提出了一种自动评估方法,并针对在真实世界交互中获得的人类指令进行了验证。第三,我们贡献了多种从成对反馈中学习的方法的参考实现(如 PPO、DPO、best-of-n、专家迭代等)。最后,作为对 AlpacaFarm 的端到端验证,我们在 10k 对真实人类反馈上训练和评估了十一个模型,结果表明在 AlpacaFarm 中训练的模型排名与在人类数据上训练的模型排名相匹配。作为在 AlpacaFarm 中可能进行的研究的演示,我们发现使用奖励模型的方法可以显著优于监督微调,并且我们的参考 PPO 实现相对于 Davinci003 带来了 +10% 的胜率提升。我们在 https://github.com/tatsu-lab/alpaca_farm 发布了 AlpacaFarm 的所有组件。

主题/分类:
- 主要: 机器学习 (cs.LG)
- 其他: 人工智能 (cs.AI); 计算与语言 (cs.CL)

备注: 被 NeurIPS 2023 选为 Spotlight 论文。

3 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 19 ms
Developed with Cursor