Self-Refine：基于自我反馈的迭代精练推理

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

Self-Refine: Iterative Refinement with Self-Feedback

作者： Aman Madaan, Niket Tandon, Prakhar Gupta, Skyler Hallinan, Luyu Gao, Sarah Wiegreffe, Uri Alon, Nouha Dziri, Shrimai Prabhumoye, Yiming Yang, Shashank Gupta, Bodhisattwa Prasad Majumder, Katherine Hermann, Sean Welleck, Amir Yazdanbakhsh, Peter Clark

提交日期： 2023年3月30日 (v1)， 2023年5月25日 (v2)

主题/分类： Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

摘要：
与人类类似，大型语言模型（LLMs）并不总是在第一次尝试时就生成最佳输出。受人类如何修改其书面文本的启发，我们提出了 Self-Refine，这是一种通过迭代反馈和改进来提升LLM初始输出的方法。其主要思想是：首先使用一个LLM生成初始输出；然后，同一个LLM为其输出提供反馈，并利用该反馈迭代地自我改进。Self-Refine 不需要任何监督训练数据、额外的训练或强化学习，而是使用单一的LLM同时作为生成器、改进器和反馈提供者。

我们在7个不同的任务上评估了Self-Refine，任务范围涵盖对话响应生成到数学推理，使用了最先进的LLMs（GPT-3.5、ChatGPT和GPT-4）。在所有评估的任务中，使用Self-Refine生成的输出，相比使用相同LLM通过传统一步生成方法生成的输出，更受人类和自动指标的青睐，任务性能平均绝对提升了约20%。我们的工作表明，即使是像GPT-4这样的最先进LLM，也可以在测试时通过我们这种简单、独立的方法得到进一步改进。

备注： 代码、数据和演示可在 https://selfrefine.info/ 获取。

论文地址：https://arxiv.org/abs/2303.17651

23 次点击 ∙ 0 人收藏

登录后收藏

0 条回复