作者: Siming Huang, Tianhao Cheng, J.K. Liu, Jiaran Hao, Liuyihan Song, Yang Xu, J. Yang, Jiaheng Liu, Chenchen Zhang, Linzheng Chai, Ruifeng Yuan, Zhaoxiang Zhang, Jie Fu, Qian Liu, Ge Zhang, Zili Wang, Yuan Qi, Yinghui Xu, Wei Chu
提交日期: 2024年11月7日 (v1),最后修订于2025年3月20日 (v3)
摘要:
用于代码的大语言模型(LLMs)在代码生成、推理任务和智能体系统等多个领域已变得不可或缺。尽管开源代码LLMs的性能正日益接近专有模型,但适用于严格科学研究的、特别是具备可复现数据处理流程和透明训练协议的高质量代码LLMs仍然有限。这种稀缺性源于各种挑战,包括资源限制、伦理考量以及保持模型先进性的竞争优势。为了弥补这一差距,我们推出了OpenCoder,一个不仅性能可与领先模型相媲美,还能作为研究社区“开放食谱”的顶级代码LLM。与以往大多数工作不同,我们不仅发布了模型权重和推理代码,还发布了可复现的训练数据、完整的数据处理流程、严格的实验消融结果以及用于开放科学研究的详细训练协议。通过这种全面的发布,我们确定了构建顶级代码LLM的关键要素:(1) 针对代码优化的数据清洗启发式规则和数据去重方法;(2) 与代码相关的文本语料库的召回;(3) 在退火和监督微调阶段的高质量合成数据。通过提供这种程度的开放性,我们旨在拓宽对顶级代码LLM所有方面的访问,使OpenCoder既能作为一个强大的模型,也能作为一个开放的基础,以加速研究,并实现代码AI领域可复现的进步。
主题/分类:
- 计算与语言 (cs.CL)
- 编程语言 (cs.PL)