StarCoder 2 技术报告：面向开发者的高效率代码模型

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

StarCoder 2 and The Stack v2: The Next Generation

作者: Anton Lozhkov, Raymond Li, Loubna Ben Allal, Federico Cassano, Joel Lamy-Poirier, Nouamane Tazi, Ao Tang, Dmytro Pykhtar, Jiawei Liu, Yuxiang Wei, Tianyang Liu, Max Tian, Denis Kocetkov, Arthur Zucker, Younes Belkada, Zijian Wang, Qian Liu, Dmitry Abulkhanov, Indraneil Paul, Zhuang Li, Wen-Ding Li, Megan Risdal, Jia Li, Jian Zhu, Terry Yue Zhuo, Evgenii Zheltonozhskii, Nii Osae Osae Dade, Wenhao Yu, Lucas Krauß, Naman Jain, Yixuan Su, Xuanli He, Manan Dey, Edoardo Abati, Yekun Chai, Niklas Muennighoff, Xiangru Tang, Muhtasham Oblokulov, Christopher Akiki, Marc Marone, Chenghao Mou, Mayank Mishra, Alex Gu, Binyuan Hui, Tri Dao, Armel Zebaze, Olivier Dehaene, Nicolas Patry, Canwen Xu, Julian McAuley, Han Hu, Torsten Scholak, Sebastien Paquet, Jennifer Robinson, Carolyn Jane Anderson, Nicolas Chapados, Mostofa Patwary, Nima Tajbakhsh, Yacine Jernite, Carlos Muñoz Ferrandis, Lingming Zhang, Sean Hughes, Thomas Wolf, Arjun Guha, Leandro von Werra, Harm de Vries

提交日期: 2024年2月29日

主题/分类: 软件工程 (cs.SE); 人工智能 (cs.AI)

摘要

BigCode项目是一个专注于负责任地开发代码大语言模型（Code LLMs）的开放科学合作项目，本文介绍了StarCoder2。我们与Software Heritage (SWH)合作，在其源代码存档的数字公共资源之上构建了The Stack v2。除了涵盖619种编程语言的SWH仓库外，我们还精心挑选了其他高质量数据源，如GitHub拉取请求、Kaggle笔记本和代码文档。这产生了一个比第一代StarCoder数据集大4倍的训练集。我们使用3.3万亿到4.3万亿个token训练了参数量为3B、7B和15B的StarCoder2模型，并在全面的Code LLM基准测试集上对其进行了彻底评估。我们发现，我们的小模型StarCoder2-3B在大多数基准测试中优于其他同等规模的Code LLMs，并且也优于StarCoderBase-15B。我们的大模型StarCoder2-15B显著优于其他规模相当的模型。此外，它达到或超过了参数量是其两倍多的CodeLlama-34B。尽管DeepSeekCoder-33B在高资源语言的代码补全任务上表现最佳，但我们发现StarCoder2-15B在数学和代码推理基准测试以及几种低资源语言上优于它。我们在OpenRAIL许可证下提供模型权重，并通过发布源代码数据的软件遗产持久标识符（SWHIDs）来确保训练数据的完全透明性。

论文地址：https://arxiv.org/abs/2402.19173

26 次点击 ∙ 0 人收藏

登录后收藏

0 条回复