作者: Tianyu Zheng, Ge Zhang, Tianhao Shen, Xueling Liu, Bill Yuchen Lin, Jie Fu, Wenhu Chen, Xiang Yue
提交/修订日期: 2024年2月22日提交,2025年1月7日修订(v3)
主题/分类: 软件工程 (cs.SE); 人工智能 (cs.AI); 计算与语言 (cs.CL)
摘要:
大型语言模型的引入极大地推动了代码生成的发展。然而,开源模型通常缺乏像 GPT-4 Code Interpreter 这样的高级系统所具备的执行能力和迭代优化功能。为了解决这个问题,我们提出了 OpenCodeInterpreter,这是一个旨在生成、执行和迭代优化代码的开源代码系统家族。在包含 68K 轮多轮交互的 Code-Feedback 数据集的支持下,OpenCodeInterpreter 集成了执行和人类反馈,以实现动态代码优化。我们在 HumanEval、MBPP 等关键基准测试及其来自 EvalPlus 的增强版本上对 OpenCodeInterpreter 进行的全面评估显示了其卓越的性能。值得注意的是,OpenCodeInterpreter-33B 在 HumanEval 和 MBPP 的平均(及增强)版本上分别达到了 83.2 (76.4) 的准确率,与 GPT-4 的 84.2 (76.2) 表现相当,并且在结合 GPT-4 合成的人类反馈后,准确率进一步提升至 91.6 (84.6)。OpenCodeInterpreter 缩小了开源代码生成模型与 GPT-4 Code Interpreter 等专有系统之间的差距。