作者: Daya Guo, Qihao Zhu, Dejian Yang, Zhenda Xie, Kai Dong, Wentao Zhang, Guanting Chen, Xiao Bi, Y. Wu, Y.K. Li, Fuli Luo, Yingfei Xiong, Wenfeng Liang
提交日期: 2024年1月25日 (v1),2024年1月26日修订 (v2)
摘要:
大型语言模型的快速发展已经彻底改变了软件开发中的代码智能。然而,闭源模型的主导地位限制了广泛的研究与开发。为了解决这一问题,我们推出了 DeepSeek-Coder 系列模型,这是一系列参数规模从 1.3B 到 33B 的开源代码模型,从头开始在 2 万亿个令牌上进行训练。这些模型在高质量的项目级代码语料库上进行预训练,并采用了一个具有 16K 上下文窗口的“填空”任务,以增强代码生成和代码填充能力。我们广泛的评估表明,DeepSeek-Coder 不仅在多个基准测试中实现了开源代码模型中最先进的性能,而且超越了现有的闭源模型,如 Codex 和 GPT-3.5。此外,DeepSeek-Coder 模型采用宽松许可证,允许用于研究和不受限制的商业用途。
主题/分类:
- 主要:软件工程 (cs.SE)
- 其他:计算与语言 (cs.CL);机器学习 (cs.LG)
引用标识符: arXiv:2401.14196 [cs.SE]