OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2402.16906

LDB:通过代码执行轨迹进行大语言模型代码调试

 
  sharding ·  2025-11-01 02:08:28 · 9 次点击  · 0 条评论  

标题

Debug like a Human: A Large Language Model Debugger via Verifying Runtime Execution Step-by-step

作者

Li Zhong, Zilong Wang, Jingbo Shang

摘要/简介

大语言模型(LLMs)在代码生成方面取得了显著进展。除了单次代码生成,近期研究进一步将单元测试和程序验证器集成到LLMs中,以迭代地优化生成的程序。然而,这些工作将生成的程序视为一个不可分割的整体,这使得LLMs在调试程序时能力不足,尤其是当程序包含复杂的逻辑流和数据操作时。相比之下,人类开发者在调试程序时,通常会设置断点并有选择地检查运行时执行信息。执行流和中间变量在调试过程中起着至关重要的作用,但在现有的代码生成文献中却未得到充分利用。

在本研究中,我们引入了大语言模型调试器(Large Language Model Debugger, LDB),这是一个新颖的调试框架,使LLMs能够利用运行时执行信息来优化其生成的程序。具体来说,LDB将程序分割成基本块,并在整个运行时执行过程中跟踪每个块之后中间变量的值。这使得LLMs能够专注于整体执行流中更简单的代码单元,对照任务描述逐块验证其正确性,并高效地定位任何潜在错误。

实验表明,LDB在HumanEval、MBPP和TransCoder基准测试中,将基线性能持续提升了高达9.8%,为各种LLM选择在代码调试方面取得了新的最先进性能。

主题/分类

  • 主要学科:软件工程 (cs.SE)
  • 相关学科:人工智能 (cs.AI); 计算与语言 (cs.CL)

提交信息

  • 提交日期:2024年2月25日
  • 最新修订日期:2024年6月6日 (版本 v6)
  • arXiv标识符:2402.16906
  • 状态:预印本
9 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 33 ms
Developed with Cursor