Salesforce Research 官方发布的用于代码理解与生成的 CodeT5 和 CodeT5+ 模型。相关论文如下:
论文标题: CodeT5+: 面向代码理解与生成的开源代码大语言模型
作者: Yue Wang*, Hung Le*, Akhilesh Deepak Gotmare, Nghi D.Q. Bui, Junnan Li, Steven C.H. Hoi (* 表示同等贡献)
论文标题: CodeT5: 面向代码理解与生成的标识符感知统一预训练编码器-解码器模型
在实践中,CodeT5 和 CodeT5+ 模型可以作为 AI 驱动的编码助手部署,以提高软件开发人员的生产力。在 Salesforce,我们使用 CodeT5 构建了一个 AI 编码助手演示,作为 VS Code 插件提供以下三种功能:

2023年5月
CodeT5+ 论文和模型发布!🔥
论文 | 代码 | 模型 | 博客
2022年9月
我们的 CodeRL 论文已被 NeurIPS 2022 接收!
论文 | 代码 | 博客
2022年7月
我们在 HuggingFace 发布了两个大型 CodeT5 模型检查点:Salesforce/codet5-large 和 Salesforce/codet5-large-ntp-py,由 CodeRL 论文 引入。
2021年10月
我们发布了论文中涵盖的所有下游任务的微调模型检查点。此外,我们还发布了一个用于多语言代码摘要的 CodeT5-base 微调检查点 (Salesforce/codet5-base-multi-sum)。
2021年9月
CodeT5 论文被 EMNLP 2021 接收,模型发布!
论文 | 代码 | 模型 | 模型卡片 | 博客
如果您发现此代码对您的研究有用,请考虑引用:
@inproceedings{
wang2021codet5,
title={CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation},
author={Yue Wang, Weishi Wang, Shafiq Joty, Steven C.H. Hoi},
booktitle={EMNLP},
year={2021},
}
@inproceedings{
le2022coderl,
title={CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning},
author={Le, Hung and Wang, Yue and Gotmare, Akhilesh Deepak and Savarese, Silvio and Hoi, Steven C. H.},
booktitle={NeurIPS},
year={2022}
}
@article{
wang2023codet5plus,
title={CodeT5+: Open Code Large Language Models for Code Understanding and Generation},
author={Wang, Yue and Le, Hung and Gotmare, Akhilesh Deepak and Bui, Nghi D.Q. and Li, Junnan and Hoi, Steven C. H.},
journal={arXiv preprint},
year={2023}
}
代码根据 BSD-3 许可证发布(详见 LICENSE.txt),但我们同时要求用户遵守以下原则:
本软件不得用于促进或从以下行为中获利:
暴力、仇恨与分裂,
环境破坏,
侵犯人权,
或损害人们的身心健康。
我们鼓励本软件的用户通过发送邮件至 codeT5@salesforce.com 告知我们其应用场景,并在开发此模型的高风险应用时,使用适当的文档。
如果您有任何问题、建议、请求或错误报告,请在 GitHub 上创建 issue。我们欢迎 Pull Requests!