StarCoder: may the source be with you!
基本信息
- 标题: StarCoder: may the source be with you!
- 作者: Raymond Li, Loubna Ben Allal, Yangtian Zi, Niklas Muennighoff, Denis Kocetkov, Chenghao Mou, Marc Marone, Christopher Akiki, Jia Li, Jenny Chim, Qian Liu, Evgenii Zheltonozhskii, Terry Yue Zhuo, Thomas Wang, Olivier Dehaene, Mishig Davaadorj, Joel Lamy-Poirier, João Monteiro, Oleh Shliazhko, Nicolas Gontier, Nicholas Meade, Armel Zebaze, Ming-Ho Yee, Logesh Kumar Umapathi, Jian Zhu, Benjamin Lipkin, Muhtasham Oblokulov, Zhiruo Wang, Rudra Murthy, Jason Stillerman, Siva Sankalp Patel, Dmitry Abulkhanov, Marco Zocca, Manan Dey, Zhihan Zhang, Nour Fahmy, Urvashi Bhattacharyya, Wenhao Yu, Swayam Singh, Sasha Luccioni, Paulo Villegas, Maxim Kunakov, Fedor Zhdanov, Manuel Romero, Tony Lee, Nadav Timor, Jennifer Ding, Claire Schlesinger, Hailey Schoelkopf, Jan Ebert, Tri Dao, Mayank Mishra, Alex Gu, Jennifer Robinson, Carolyn Jane Anderson, Brendan Dolan-Gavitt, Danish Contractor, Siva Reddy, Daniel Fried, Dzmitry Bahdanau, Yacine Jernite, Carlos Muñoz Ferrandis, Sean Hughes, Thomas Wolf, Arjun Guha, Leandro von Werra, Harm de Vries(共67位作者)
- 提交日期: 2023年5月9日(v1),最后修订于2023年12月13日(v2)
学科分类
- 主要学科:计算与语言 (cs.CL)
- 其他学科:人工智能 (cs.AI)、编程语言 (cs.PL)、软件工程 (cs.SE)
摘要
BigCode社区(一个致力于负责任地开发代码大型语言模型的开源科学合作组织)推出了StarCoder和StarCoderBase:两个15.5B参数的模型,具有8K上下文长度、填充能力和通过多查询注意力实现的快速大批量推理。StarCoderBase在来自The Stack的1万亿tokens上进行训练,The Stack是一个包含许可型GitHub仓库的大型数据集,配有检查工具和退出机制。研究团队在35B Python tokens上对StarCoderBase进行了微调,创建了StarCoder。论文进行了迄今为止最全面的Code LLM评估,结果表明StarCoderBase在支持多种编程语言的开放Code LLM中表现最优,并与OpenAI的code-cushman-001模型表现相当或更优。此外,StarCoder在Python微调模型中表现最佳,在HumanEval上通过提示可达到40%的pass@1,同时在其他编程语言上仍保持良好性能。研究团队在安全开放访问模型发布方面采取了多项重要措施,包括改进的PII清洗流程和新颖的归因追踪工具,并以更商业化的Open Responsible AI Model许可证形式公开发布了StarCoder模型。