作者: Qinkai Zheng, Xiao Xia, Xu Zou, Yuxiao Dong, Shan Wang, Yufei Xue, Zihan Wang, Lei Shen, Andi Wang, Yang Li, Teng Su, Zhilin Yang, Jie Tang
摘要: 大型预训练代码生成模型(如 OpenAI Codex)能够生成语法和功能正确的代码,使程序员的编码效率更高,并让我们更接近通用人工智能的目标。本文介绍了 CodeGeeX,一个拥有 130 亿参数的多语言代码生成模型。截至 2022 年 6 月,CodeGeeX 在 23 种编程语言的 8500 亿个令牌上进行了预训练。我们广泛的实验表明,在 HumanEval-X 基准测试的代码生成和代码翻译任务上,CodeGeeX 的表现优于类似规模的多语言代码模型。我们在 HumanEval(仅限 Python)的基础上,开发了 HumanEval-X 基准,通过手写 C++、Java、JavaScript 和 Go 的解决方案来评估多语言模型。此外,我们在 Visual Studio Code、JetBrains 和 Cloud Studio 上构建了基于 CodeGeeX 的扩展,每周为数万名活跃用户生成 47 亿个令牌。我们的用户研究表明,CodeGeeX 可以帮助 83.4% 的用户提高编码效率。最后,CodeGeeX 是公开可访问的,我们已于 2022 年 9 月在 https://github.com/THUDM/CodeGeeX 开源了其代码、模型权重(850B 令牌版本)、API、扩展和 HumanEval-X。
主题分类: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Software Engineering (cs.SE)
提交/修订日期: 2023年3月30日提交,2024年7月10日修订(v2)