CodeGeeX: 用于代码生成的预训练模型及在 HumanEval-X 上的多语言基准测试

作者: Qinkai Zheng, Xiao Xia, Xu Zou, Yuxiao Dong, Shan Wang, Yufei Xue, Zihan Wang, Lei Shen, Andi Wang, Yang Li, Teng Su, Zhilin Yang, Jie Tang

摘要: 大型预训练代码生成模型（如 OpenAI Codex）能够生成语法和功能正确的代码，使程序员的编码效率更高，并让我们更接近通用人工智能的目标。本文介绍了 CodeGeeX，一个拥有 130 亿参数的多语言代码生成模型。截至 2022 年 6 月，CodeGeeX 在 23 种编程语言的 8500 亿个令牌上进行了预训练。我们广泛的实验表明，在 HumanEval-X 基准测试的代码生成和代码翻译任务上，CodeGeeX 的表现优于类似规模的多语言代码模型。我们在 HumanEval（仅限 Python）的基础上，开发了 HumanEval-X 基准，通过手写 C++、Java、JavaScript 和 Go 的解决方案来评估多语言模型。此外，我们在 Visual Studio Code、JetBrains 和 Cloud Studio 上构建了基于 CodeGeeX 的扩展，每周为数万名活跃用户生成 47 亿个令牌。我们的用户研究表明，CodeGeeX 可以帮助 83.4% 的用户提高编码效率。最后，CodeGeeX 是公开可访问的，我们已于 2022 年 9 月在 https://github.com/THUDM/CodeGeeX 开源了其代码、模型权重（850B 令牌版本）、API、扩展和 HumanEval-X。

主题分类: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Software Engineering (cs.SE)

提交/修订日期: 2023年3月30日提交，2024年7月10日修订（v2）

论文地址：https://arxiv.org/abs/2303.17568

18 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

CodeGeeX：面向多语言代码生成的大规模预训练模型

CodeGeeX: 用于代码生成的预训练模型及在 HumanEval-X 上的多语言基准测试