作者: Ziyang Luo, Can Xu, Pu Zhao, Qingfeng Sun, Xiubo Geng, Wenxiang Hu, Chongyang Tao, Jing Ma, Qingwei Lin, Daxin Jiang
提交日期: 2023年6月14日 (v1),最后修订于2025年5月27日 (v2)
摘要:
代码大语言模型(Code LLMs),如 StarCoder,已在代码相关任务中展现出卓越的性能。然而,大多数现有模型仅在大规模原始代码数据上进行预训练,而没有进行指令微调。本文提出了 WizardCoder,它通过将 Evol-Instruct 方法适配到代码领域,为代码大语言模型赋能复杂的指令微调。通过在四个著名的代码生成基准测试(即 HumanEval、HumanEval+、MBPP 和 DS-1000)上进行全面的实验,我们揭示了该模型的卓越能力。它以显著优势超越了所有其他开源代码大语言模型。此外,我们的模型在 HumanEval 和 HumanEval+ 上甚至超越了最大的闭源大语言模型,如 Anthropic 的 Claude 和 Google 的 Bard。我们的代码、模型权重和数据已在 https://github.com/nlpxucan/WizardLM 公开。
主题/分类:
- 计算与语言 (cs.CL)
- 人工智能 (cs.AI)
备注:
本文已被 ICLR 2024 接收。请引用 ICLR 版本。
DOI: https://doi.org/10.48550/arXiv.2306.08568