OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2303.17568

CodeGeeX:面向多语言代码生成的大规模预训练模型

 
  birth ·  2026-03-19 11:01:26 · 3 次点击  · 0 条评论  

CodeGeeX: 用于代码生成的预训练模型及在 HumanEval-X 上的多语言基准测试

作者: Qinkai Zheng, Xiao Xia, Xu Zou, Yuxiao Dong, Shan Wang, Yufei Xue, Zihan Wang, Lei Shen, Andi Wang, Yang Li, Teng Su, Zhilin Yang, Jie Tang

摘要: 大型预训练代码生成模型(如 OpenAI Codex)能够生成语法和功能正确的代码,使程序员的编码效率更高,并让我们更接近通用人工智能的目标。本文介绍了 CodeGeeX,一个拥有 130 亿参数的多语言代码生成模型。截至 2022 年 6 月,CodeGeeX 在 23 种编程语言的 8500 亿个令牌上进行了预训练。我们广泛的实验表明,在 HumanEval-X 基准测试的代码生成和代码翻译任务上,CodeGeeX 的表现优于类似规模的多语言代码模型。我们在 HumanEval(仅限 Python)的基础上,开发了 HumanEval-X 基准,通过手写 C++、Java、JavaScript 和 Go 的解决方案来评估多语言模型。此外,我们在 Visual Studio Code、JetBrains 和 Cloud Studio 上构建了基于 CodeGeeX 的扩展,每周为数万名活跃用户生成 47 亿个令牌。我们的用户研究表明,CodeGeeX 可以帮助 83.4% 的用户提高编码效率。最后,CodeGeeX 是公开可访问的,我们已于 2022 年 9 月在 https://github.com/THUDM/CodeGeeX 开源了其代码、模型权重(850B 令牌版本)、API、扩展和 HumanEval-X。

主题分类: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Software Engineering (cs.SE)

提交/修订日期: 2023年3月30日提交,2024年7月10日修订(v2)

3 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 14 ms
Developed with Cursor