CodeT5+: 面向代码理解与生成的开放代码大语言模型

作者: Yue Wang, Hung Le, Akhilesh Deepak Gotmare, Nghi D.Q. Bui, Junnan Li, Steven C.H. Hoi

提交/修订日期: 2023年5月13日提交，2023年5月20日修订 (v2)

主题分类: Computation and Language (cs.CL); Machine Learning (cs.LG); Programming Languages (cs.PL)

摘要:
在大规模源代码上预训练的大语言模型（LLMs）已在代码智能领域取得了显著进展。然而，现有的代码LLMs在架构和预训练任务方面存在两个主要局限。首先，它们通常采用特定架构（仅编码器或仅解码器），或依赖统一的编码器-解码器网络处理不同下游任务。前一种范式受限于应用的不灵活性，而后一种范式将模型视为所有任务的单一系统，导致在部分任务上性能欠佳。其次，它们通常采用有限的预训练目标集，这些目标可能与某些下游任务不相关，从而导致性能大幅下降。

为应对这些局限，我们提出了“CodeT5+”，一个面向代码的编码器-解码器大语言模型家族，其组件模块可以灵活组合以适应广泛的下游代码任务。这种灵活性得益于我们提出的混合预训练目标，以缓解预训练与微调之间的差异。这些目标涵盖了跨度去噪、对比学习、文本-代码匹配以及因果语言模型预训练任务，并在单模态和双模态多语言代码语料库上进行。此外，我们提出使用冻结的现成大语言模型初始化CodeT5+，而非从头开始训练，以高效扩展模型规模，并探索指令微调以对齐自然语言指令。

我们在超过20个代码相关基准上，于不同设置（包括零样本、微调和指令微调）下广泛评估了CodeT5+。我们观察到模型在各种代码相关任务上达到了最先进的性能，例如代码生成与补全、数学编程以及文本到代码检索任务。特别是，我们经过指令微调的CodeT5+ 16B模型在HumanEval代码生成任务上，相较于其他开放代码LLMs，取得了新的最先进结果。

论文地址：https://arxiv.org/abs/2305.07922

16 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

CodeT5+：面向代码理解与生成的一体化大型模型

CodeT5+: 面向代码理解与生成的开放代码大语言模型