作者: Yuxiang Wei, Zhe Wang, Jiawei Liu, Yifeng Ding, Lingming Zhang
提交日期: 2023年12月4日 (v1),2024年6月7日修订 (v2)
摘要:
本文介绍了 Magicoder,一系列用于代码生成的完全开源(代码、权重和数据)的大型语言模型。该系列模型参数量不超过 7B,却显著缩小了与顶级代码模型之间的性能差距。Magicoder 模型使用 OSS-Instruct 方法在 75K 条合成指令数据上进行训练。OSS-Instruct 是一种新颖的方法,它利用开源代码片段启发 LLM,以生成多样化的代码指令数据。我们的主要动机是通过丰富的开源参考来减轻 LLM 生成的合成数据固有的偏见,从而产生更真实和可控的数据。OSS-Instruct 与 Evol-Instruct 等其他数据生成方法的正交性,使我们能够构建一个增强版本 MagicoderS。在广泛的代码基准测试中,Magicoder 和 MagicoderS 都大幅超越了规模相似甚至更大的最先进代码模型。值得注意的是,基于 CodeLlama 的 MagicoderS-CL-7B 甚至在 HumanEval+ 基准上超越了著名的 ChatGPT(pass@1 得分 66.5 对 65.9)。总体而言,OSS-Instruct 为利用丰富的开源参考来构建多样化的代码合成指令数据开辟了一个新的方向。
主题分类:
- 计算与语言 (cs.CL)
- 人工智能 (cs.AI)
- 软件工程 (cs.SE)
备注: 发表于 ICML 2024。