WebGPT: 基于浏览器辅助和人类反馈的问答系统

作者： Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang, Christina Kim, Christopher Hesse, Shantanu Jain, Vineet Kosaraju, William Saunders, Xu Jiang, Karl Cobbe, Tyna Eloundou, Gretchen Krueger, Kevin Button, Matthew Knight, Benjamin Chess, John Schulman

提交/修订日期： 2021年12月17日提交，2022年6月1日修订（版本v3）

摘要：
我们通过微调 GPT-3，使其能够在一个基于文本的网络浏览环境中回答长格式问题，该环境允许模型搜索和浏览网页。通过将任务设置为人类可以执行的方式，我们能够使用模仿学习在该任务上训练模型，然后利用人类反馈来优化答案质量。为了便于人类评估事实准确性，模型在浏览过程中必须收集支持其答案的参考文献。我们在 ELI5 数据集（一个包含 Reddit 用户提问的数据集）上训练和评估我们的模型。我们最好的模型是通过使用行为克隆微调 GPT-3，然后对经过训练以预测人类偏好的奖励模型进行拒绝采样而获得的。该模型的答案在 56% 的情况下比我们人类演示者的答案更受人类青睐，在 69% 的情况下比 Reddit 上最高票的答案更受青睐。

主题/分类：
- 主要：计算与语言 (cs.CL)
- 相关：人工智能 (cs.AI)；机器学习 (cs.LG)

备注： 32页

论文地址：https://arxiv.org/abs/2112.09332

41 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

WebGPT：利用网页浏览能力提升开放域问答质量

WebGPT: 基于浏览器辅助和人类反馈的问答系统