OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2305.07922

CodeT5+:面向代码理解与生成的一体化大型模型

 
  cookie ·  2026-02-17 15:11:15 · 2 次点击  · 0 条评论  

CodeT5+: 面向代码理解与生成的开放代码大语言模型

作者: Yue Wang, Hung Le, Akhilesh Deepak Gotmare, Nghi D.Q. Bui, Junnan Li, Steven C.H. Hoi

提交/修订日期: 2023年5月13日提交,2023年5月20日修订 (v2)

主题分类: Computation and Language (cs.CL); Machine Learning (cs.LG); Programming Languages (cs.PL)

摘要:
在大规模源代码上预训练的大语言模型(LLMs)已在代码智能领域取得了显著进展。然而,现有的代码LLMs在架构和预训练任务方面存在两个主要局限。首先,它们通常采用特定架构(仅编码器或仅解码器),或依赖统一的编码器-解码器网络处理不同下游任务。前一种范式受限于应用的不灵活性,而后一种范式将模型视为所有任务的单一系统,导致在部分任务上性能欠佳。其次,它们通常采用有限的预训练目标集,这些目标可能与某些下游任务不相关,从而导致性能大幅下降。

为应对这些局限,我们提出了“CodeT5+”,一个面向代码的编码器-解码器大语言模型家族,其组件模块可以灵活组合以适应广泛的下游代码任务。这种灵活性得益于我们提出的混合预训练目标,以缓解预训练与微调之间的差异。这些目标涵盖了跨度去噪、对比学习、文本-代码匹配以及因果语言模型预训练任务,并在单模态和双模态多语言代码语料库上进行。此外,我们提出使用冻结的现成大语言模型初始化CodeT5+,而非从头开始训练,以高效扩展模型规模,并探索指令微调以对齐自然语言指令。

我们在超过20个代码相关基准上,于不同设置(包括零样本、微调和指令微调)下广泛评估了CodeT5+。我们观察到模型在各种代码相关任务上达到了最先进的性能,例如代码生成与补全、数学编程以及文本到代码检索任务。特别是,我们经过指令微调的CodeT5+ 16B模型在HumanEval代码生成任务上,相较于其他开放代码LLMs,取得了新的最先进结果。

2 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 47 ms
Developed with Cursor