LDB：通过代码执行轨迹进行大语言模型代码调试

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

标题

Debug like a Human: A Large Language Model Debugger via Verifying Runtime Execution Step-by-step

作者

Li Zhong, Zilong Wang, Jingbo Shang

摘要/简介

大语言模型（LLMs）在代码生成方面取得了显著进展。除了单次代码生成，近期研究进一步将单元测试和程序验证器集成到LLMs中，以迭代地优化生成的程序。然而，这些工作将生成的程序视为一个不可分割的整体，这使得LLMs在调试程序时能力不足，尤其是当程序包含复杂的逻辑流和数据操作时。相比之下，人类开发者在调试程序时，通常会设置断点并有选择地检查运行时执行信息。执行流和中间变量在调试过程中起着至关重要的作用，但在现有的代码生成文献中却未得到充分利用。

在本研究中，我们引入了大语言模型调试器（Large Language Model Debugger, LDB），这是一个新颖的调试框架，使LLMs能够利用运行时执行信息来优化其生成的程序。具体来说，LDB将程序分割成基本块，并在整个运行时执行过程中跟踪每个块之后中间变量的值。这使得LLMs能够专注于整体执行流中更简单的代码单元，对照任务描述逐块验证其正确性，并高效地定位任何潜在错误。

实验表明，LDB在HumanEval、MBPP和TransCoder基准测试中，将基线性能持续提升了高达9.8%，为各种LLM选择在代码调试方面取得了新的最先进性能。

主题/分类

主要学科：软件工程 (cs.SE)
相关学科：人工智能 (cs.AI); 计算与语言 (cs.CL)

提交信息

提交日期：2024年2月25日
最新修订日期：2024年6月6日 (版本 v6)
arXiv标识符：2402.16906
状态：预印本

论文地址：https://arxiv.org/abs/2402.16906

26 次点击 ∙ 0 人收藏

登录后收藏

0 条回复