OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2402.09664

CodeMind:挑战大模型代码推理的评估框架

 
  seventy ·  2025-10-15 23:44:29 · 15 次点击  · 0 条评论  

作者: Changshu Liu, Yang Chen, Reyhaneh Jabbarvand

提交/修订日期: 2024年2月15日提交,2025年5月22日修订 (v5)

摘要:
大型语言模型(LLMs)已被广泛用于自动化编程任务。其能力通常通过测试或证明生成的代码质量来评估。它们能在多大程度上对代码进行推理,是一个揭示其真实能力的关键问题。本文提出了 CodeMind,一个旨在通过以下显式和隐式代码推理任务来衡量 LLMs 代码推理能力的框架:独立执行推理(IER)、规范推理(SR)和动态语义推理(DSR)。IER 评估 LLMs 模拟给定代码输入并预测输出的能力。SR 评估 LLMs 将规范中测试数据的模拟纳入代码生成的能力。DSR 则评估 LLMs 在仅给定特定输入/输出的情况下理解整体代码语义的能力。我们使用 CodeMind 在四个广泛使用的基准上对十个 LLMs 进行了广泛评估,结果表明,LLMs 根据其规模和训练策略,能够对代码的某些动态方面进行推理。然而,对于复杂度更高、包含非平凡逻辑和算术运算符、非原始类型以及 API 调用的代码,其性能会下降。我们证明这些推理任务对 LLMs 的评估方式不同,全面的代码推理评估需要所有这些任务。最后,我们表明 LLMs 在错误修复方面的性能与任何代码推理任务都不相关,并且除了先进的前沿模型外,其他 LLMs 在执行错误修复时并未融入代码推理。

主题/分类:
- 主要:软件工程 (cs.SE)
- 其他:人工智能 (cs.AI);计算与语言 (cs.CL);编程语言 (cs.PL)

arXiv ID: 2402.09664

15 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 12 ms
Developed with Cursor