OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2305.11738

CRITIC:通过工具交互反馈实现大语言模型的自我校正

 
  middleware ·  2025-12-30 05:55:03 · 8 次点击  · 0 条评论  

CRITIC: 大语言模型可以通过工具交互式批判实现自我纠正

作者: Zhibin Gou, Zhihong Shao, Yeyun Gong, Yelong Shen, Yujiu Yang, Nan Duan, Weizhu Chen

提交/修订日期: 2023年5月19日提交,2024年2月21日修订(版本v4)

会议: ICLR 2024

主题分类: 计算与语言 (cs.CL); 人工智能 (cs.AI)

摘要:
大语言模型(LLMs)的最新发展令人印象深刻。然而,这些模型有时会表现出不一致和有问题的行为,例如捏造事实、生成有缺陷的代码或产生冒犯性和有害内容。与这些模型不同,人类通常会利用外部工具来交叉检查和优化其初始内容,例如使用搜索引擎进行事实核查,或使用代码解释器进行调试。受此启发,我们引入了一个名为 CRITIC 的框架,它允许本质上是“黑盒”的 LLMs 以一种类似于人类与工具交互的方式,来验证并逐步修正自己的输出。更具体地说,CRITIC 从初始输出开始,与适当的工具交互以评估文本的某些方面,然后根据在此验证过程中获得的反馈来修订输出。在自由形式问答、数学程序合成和毒性降低方面的综合评估表明,CRITIC 持续提升了 LLMs 的性能。同时,我们的研究强调了外部反馈在促进 LLMs 持续自我改进方面的至关重要性。

8 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 44 ms
Developed with Cursor