OpenCodeInterpreter: 集成代码生成、执行与迭代优化

作者： Tianyu Zheng, Ge Zhang, Tianhao Shen, Xueling Liu, Bill Yuchen Lin, Jie Fu, Wenhu Chen, Xiang Yue

提交日期： 2024年2月22日

摘要：
大型语言模型的引入极大地推动了代码生成的发展。然而，开源模型通常缺乏像 GPT-4 Code Interpreter 这样的高级系统所具备的代码执行和迭代优化能力。为了解决这一问题，我们提出了 OpenCodeInterpreter，这是一个旨在生成、执行和迭代优化代码的开源代码系统系列。该系统由包含 68K 条多轮交互的 Code-Feedback 数据集支持，能够整合执行结果和人类反馈以实现动态代码优化。我们在 HumanEval、MBPP 等关键基准测试及其来自 EvalPlus 的增强版本上对 OpenCodeInterpreter 进行了全面评估，结果显示了其卓越的性能。值得注意的是，OpenCodeInterpreter-33B 在 HumanEval 和 MBPP 的平均（及增强）版本上分别达到了 83.2 (76.4) 的准确率，与 GPT-4 的 84.2 (76.2) 表现相当；在使用 GPT-4 合成的人类反馈后，其性能进一步提升至 91.6 (84.6)。OpenCodeInterpreter 缩小了开源代码生成模型与 GPT-4 Code Interpreter 等专有系统之间的差距。

主题/分类：
- 软件工程 (cs.SE)
- 人工智能 (cs.AI)
- 计算与语言 (cs.CL)

论文地址：https://arxiv.org/abs/2402.14658v1

39 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

OpenCodeInterpreter：面向代码执行与编程任务的开源系统

OpenCodeInterpreter: 集成代码生成、执行与迭代优化