CodeGen: 一个支持多轮程序合成的开放大语言模型

作者: Erik Nijkamp, Bo Pang, Hiroaki Hayashi, Lifu Tu, Huan Wang, Yingbo Zhou, Silvio Savarese, Caiming Xiong

提交/修订日期: 2022年3月25日提交，2023年2月27日修订 (v5)

摘要:
程序合成旨在根据给定的问题规约（以输入输出示例或自然语言描述的形式）生成计算机程序。大语言模型的普及推动了程序合成领域的最新进展，但有限的训练资源和数据阻碍了对这类模型的开放访问。为了使其民主化，我们训练并发布了一系列参数规模高达161亿的大语言模型，称为 CODEGEN，模型基于自然语言和编程语言数据进行训练，并开源了训练库 JAXFORMER。我们通过展示该模型在 HumanEval 基准测试上的零样本 Python 代码生成能力与之前的最先进模型具有竞争力，来证明其效用。我们进一步研究了程序合成的多步范式，即将单个程序分解为指定子问题的多个提示。为此，我们构建了一个开放的基准测试集 Multi-Turn Programming Benchmark (MTPB)，包含115个不同的问题集，这些问题集被分解为多轮提示。我们在 MTPB 上的分析表明，以多轮方式向 CODEGEN 提供相同的意图，相比单轮方式能显著改善程序合成效果。我们将训练库 JAXFORMER 和模型检查点作为开源贡献提供：https://github.com/salesforce/CodeGen。

主题/分类:
- 主要: 机器学习 (cs.LG)
- 其他: 计算与语言 (cs.CL); 编程语言 (cs.PL)

论文地址：https://arxiv.org/abs/2203.13474

19 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

CodeGen：大规模自回归语言模型用于程序合成

CodeGen: 一个支持多轮程序合成的开放大语言模型