训练语言模型遵循人类反馈的指令

作者: Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe

提交日期: 2022年3月4日

摘要:
单纯扩大语言模型的规模并不能使其更好地遵循用户的意图。例如，大型语言模型可能生成不真实、有害或对用户无益的输出。换句话说，这些模型并未与用户对齐。本文展示了一种通过基于人类反馈的微调，使语言模型在广泛任务上与用户意图对齐的途径。我们从标注员编写的提示词和通过OpenAI API提交的提示词开始，收集了一个展示期望模型行为的标注员演示数据集，并利用监督学习对GPT-3进行微调。随后，我们收集了一个模型输出排序数据集，并利用基于人类反馈的强化学习对该监督模型进行进一步微调。我们将得到的模型称为InstructGPT。在我们提示词分布上的人类评估中，尽管参数少了100倍，但拥有13亿参数的InstructGPT模型的输出比拥有1750亿参数的GPT-3的输出更受青睐。此外，InstructGPT模型在公共NLP数据集上性能回归最小的同时，在真实性方面有所提升，并减少了有害输出的生成。尽管InstructGPT仍会犯简单的错误，但我们的结果表明，基于人类反馈的微调是使语言模型与人类意图对齐的一个有前景的方向。

主题/分类:
- 计算与语言 (cs.CL)
- 人工智能 (cs.AI)
- 机器学习 (cs.LG)

arXiv标识符: arXiv:2203.02155

论文地址：https://arxiv.org/abs/2203.02155

24 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

InstructGPT：训练语言模型以遵循人类指令

训练语言模型遵循人类反馈的指令