作者: Shengding Hu, Yuge Tu, Xu Han, Chaoqun He, Ganqu Cui, Xiang Long, Zhi Zheng, Yewei Fang, Yuxiang Huang, Weilin Zhao, Xinrong Zhang, Zheng Leng Thai, Kaihuo Zhang, Chongyi Wang, Yuan Yao, Chenyang Zhao, Jie Zhou, Jie Cai, Zhongwu Zhai, Ning Ding, Chao Jia, Guoyang Zeng, Dahai Li, Zhiyuan Liu, Maosong Sun
摘要:
随着开发参数高达万亿级别的大型语言模型(LLMs)的兴趣日益增长,资源效率和实际成本问题也引发了担忧,尤其是考虑到实验的巨大开销。这一情况凸显了探索小型语言模型(SLMs)作为资源高效替代方案的重要性。在此背景下,我们介绍了 MiniCPM,特别是其 1.2B 和 2.4B 非嵌入参数变体,这些模型不仅在各自类别中表现出色,而且展现出与 7B-13B LLMs 相当的能力。尽管专注于 SLMs,我们的方法在模型和数据维度上都展现出对未来 LLM 研究的可扩展性。在模型缩放方面,我们采用广泛的模型风洞实验来实现稳定和最优的缩放。对于数据缩放,我们引入了 Warmup-Stable-Decay(WSD)学习率调度器(LRS),它有利于持续训练和领域适应。我们对 WSD LRS 中发生的引人入胜的训练动态进行了深入分析。借助 WSD LRS,我们现在能够高效地研究数据-模型缩放定律,而无需在模型和数据两个轴上进行大量的重新训练实验,由此我们推导出比 Chinchilla 最优值高得多的计算最优数据-模型比例。此外,我们介绍了 MiniCPM 家族,包括 MiniCPM-DPO、MiniCPM-MoE 和 MiniCPM-128K,其卓越性能进一步巩固了 MiniCPM 在多样化 SLM 应用中的基础。MiniCPM 模型已在 https://github.com/OpenBMB/MiniCPM 公开提供。
主题/分类:
- 计算与语言(cs.CL)
- 机器学习(cs.LG)
提交/修订日期:
- 提交于 2024年4月9日
- 当前版本修订于 2024年6月3日