作者: Suriya Gunasekar, Yi Zhang, Jyoti Aneja, Caio César Teodoro Mendes, Allie Del Giorno, Sivakanth Gopi, Mojan Javaheripi, Piero Kauffmann, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Harkirat Singh Behl, Xin Wang, Sébastien Bubeck, Ronen Eldan, Adam Tauman Kalai, Yin Tat Lee, Yuanzhi Li
提交/修订日期: 2023年6月20日提交,2023年10月2日修订 (v2)
摘要:
本文介绍了 phi-1,一个用于代码生成的新型大型语言模型,其规模显著小于同类竞争模型。phi-1 是一个基于 Transformer 的模型,拥有 13 亿参数,在 8 块 A100 GPU 上训练了 4 天。训练数据包括从网络上筛选出的“教科书质量”数据(60 亿词元)以及使用 GPT-3.5 合成的教科书和练习题(10 亿词元)。尽管规模较小,phi-1 在 HumanEval 基准测试上达到了 50.6% 的 pass@1 准确率,在 MBPP 基准测试上达到了 55.5% 的准确率。与 phi-1-base(在代码练习数据集上进行微调前的模型)以及 phi-1-small(一个使用与 phi-1 相同流程训练、参数量为 3.5 亿的较小模型,在 HumanEval 上仍能达到 45% 的准确率)相比,phi-1 还显示出令人惊讶的涌现特性。
主题/分类:
- 主要: 计算与语言 (cs.CL)
- 其他: 人工智能 (cs.AI); 机器学习 (cs.LG)