OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2401.14196

DeepSeek-Coder:让代码触手可及的开源编程大语言模型

 
  exploit ·  2026-02-12 02:13:07 · 9 次点击  · 0 条评论  

DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence

作者: Daya Guo, Qihao Zhu, Dejian Yang, Zhenda Xie, Kai Dong, Wentao Zhang, Guanting Chen, Xiao Bi, Y. Wu, Y.K. Li, Fuli Luo, Yingfei Xiong, Wenfeng Liang

提交日期: 2024年1月25日 (v1),2024年1月26日修订 (v2)

摘要:
大型语言模型的快速发展已经彻底改变了软件开发中的代码智能。然而,闭源模型的主导地位限制了广泛的研究与开发。为了解决这一问题,我们推出了 DeepSeek-Coder 系列模型,这是一系列参数规模从 1.3B 到 33B 的开源代码模型,从头开始在 2 万亿个令牌上进行训练。这些模型在高质量的项目级代码语料库上进行预训练,并采用了一个具有 16K 上下文窗口的“填空”任务,以增强代码生成和代码填充能力。我们广泛的评估表明,DeepSeek-Coder 不仅在多个基准测试中实现了开源代码模型中最先进的性能,而且超越了现有的闭源模型,如 Codex 和 GPT-3.5。此外,DeepSeek-Coder 模型采用宽松许可证,允许用于研究和不受限制的商业用途。

主题/分类:
- 主要:软件工程 (cs.SE)
- 其他:计算与语言 (cs.CL);机器学习 (cs.LG)

引用标识符: arXiv:2401.14196 [cs.SE]

9 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 46 ms
Developed with Cursor