作者: Zhibin Gou, Zhihong Shao, Yeyun Gong, Yelong Shen, Yujiu Yang, Nan Duan, Weizhu Chen
提交/修订日期: 2023年5月19日提交,2024年2月21日修订(版本v4)
会议: ICLR 2024
主题分类: 计算与语言 (cs.CL); 人工智能 (cs.AI)
摘要:
大语言模型(LLMs)的最新发展令人印象深刻。然而,这些模型有时会表现出不一致和有问题的行为,例如捏造事实、生成有缺陷的代码或产生冒犯性和有害内容。与这些模型不同,人类通常会利用外部工具来交叉检查和优化其初始内容,例如使用搜索引擎进行事实核查,或使用代码解释器进行调试。受此启发,我们引入了一个名为 CRITIC 的框架,它允许本质上是“黑盒”的 LLMs 以一种类似于人类与工具交互的方式,来验证并逐步修正自己的输出。更具体地说,CRITIC 从初始输出开始,与适当的工具交互以评估文本的某些方面,然后根据在此验证过程中获得的反馈来修订输出。在自由形式问答、数学程序合成和毒性降低方面的综合评估表明,CRITIC 持续提升了 LLMs 的性能。同时,我们的研究强调了外部反馈在促进 LLMs 持续自我改进方面的至关重要性。