OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2203.13474

CodeGen:大规模自回归语言模型用于程序合成

 
  chance ·  2026-03-22 11:01:24 · 2 次点击  · 0 条评论  

CodeGen: 一个支持多轮程序合成的开放大语言模型

作者: Erik Nijkamp, Bo Pang, Hiroaki Hayashi, Lifu Tu, Huan Wang, Yingbo Zhou, Silvio Savarese, Caiming Xiong

提交/修订日期: 2022年3月25日提交,2023年2月27日修订 (v5)

摘要:
程序合成旨在根据给定的问题规约(以输入输出示例或自然语言描述的形式)生成计算机程序。大语言模型的普及推动了程序合成领域的最新进展,但有限的训练资源和数据阻碍了对这类模型的开放访问。为了使其民主化,我们训练并发布了一系列参数规模高达161亿的大语言模型,称为 CODEGEN,模型基于自然语言和编程语言数据进行训练,并开源了训练库 JAXFORMER。我们通过展示该模型在 HumanEval 基准测试上的零样本 Python 代码生成能力与之前的最先进模型具有竞争力,来证明其效用。我们进一步研究了程序合成的多步范式,即将单个程序分解为指定子问题的多个提示。为此,我们构建了一个开放的基准测试集 Multi-Turn Programming Benchmark (MTPB),包含115个不同的问题集,这些问题集被分解为多轮提示。我们在 MTPB 上的分析表明,以多轮方式向 CODEGEN 提供相同的意图,相比单轮方式能显著改善程序合成效果。我们将训练库 JAXFORMER 和模型检查点作为开源贡献提供:https://github.com/salesforce/CodeGen。

主题/分类:
- 主要: 机器学习 (cs.LG)
- 其他: 计算与语言 (cs.CL); 编程语言 (cs.PL)

2 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 13 ms
Developed with Cursor