DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence

作者： Daya Guo, Qihao Zhu, Dejian Yang, Zhenda Xie, Kai Dong, Wentao Zhang, Guanting Chen, Xiao Bi, Y. Wu, Y.K. Li, Fuli Luo, Yingfei Xiong, Wenfeng Liang

提交日期： 2024年1月25日 (v1)，2024年1月26日修订 (v2)

摘要：
大型语言模型的快速发展已经彻底改变了软件开发中的代码智能。然而，闭源模型的主导地位限制了广泛的研究与开发。为了解决这一问题，我们推出了 DeepSeek-Coder 系列模型，这是一系列参数规模从 1.3B 到 33B 的开源代码模型，从头开始在 2 万亿个令牌上进行训练。这些模型在高质量的项目级代码语料库上进行预训练，并采用了一个具有 16K 上下文窗口的“填空”任务，以增强代码生成和代码填充能力。我们广泛的评估表明，DeepSeek-Coder 不仅在多个基准测试中实现了开源代码模型中最先进的性能，而且超越了现有的闭源模型，如 Codex 和 GPT-3.5。此外，DeepSeek-Coder 模型采用宽松许可证，允许用于研究和不受限制的商业用途。

主题/分类：
- 主要：软件工程 (cs.SE)
- 其他：计算与语言 (cs.CL)；机器学习 (cs.LG)

引用标识符： arXiv:2401.14196 [cs.SE]

论文地址：https://arxiv.org/abs/2401.14196

26 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

DeepSeek-Coder：让代码触手可及的开源编程大语言模型

DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence