GLM-130B: 一个开源的百亿参数双语预训练模型

作者: Aohan Zeng, Xiao Liu, Zhengxiao Du, Zihan Wang, Hanyu Lai, Ming Ding, Zhuoyi Yang, Yifan Xu, Wendi Zheng, Xiao Xia, Weng Lam Tam, Zixuan Ma, Yufei Xue, Jidong Zhai, Wenguang Chen, Peng Zhang, Yuxiao Dong, Jie Tang

提交/修订日期: 2022年10月5日提交，2023年10月25日修订

状态: 已被ICLR 2023接收

主题分类: 计算与语言 (cs.CL); 人工智能 (cs.AI); 机器学习 (cs.LG)

摘要

本文介绍了GLM-130B，一个拥有1300亿参数的双语（英文和中文）预训练语言模型。这项工作旨在开源一个至少与GPT-3 (davinci) 性能相当的百亿规模模型，并揭示如何成功预训练如此大规模的模型。在此过程中，我们面临了许多意料之外的技术和工程挑战，特别是在损失尖峰和发散问题上。本文介绍了GLM-130B的训练过程，包括其设计选择、兼顾效率与稳定性的训练策略以及工程实践。

最终的GLM-130B模型在广泛的流行英文基准测试中显著优于GPT-3 175B (davinci)，而这种性能优势在OPT-175B和BLOOM-176B中并未观察到。它还在相关的中文基准测试中持续且显著地超越了当时最大的中文语言模型ERNIE TITAN 3.0 260B。

最后，我们利用GLM-130B独特的缩放特性，实现了无需后训练的INT4量化，且几乎没有性能损失。这使其成为首个实现此特性的百亿规模模型，更重要的是，使其能够在4张RTX 3090 (24G) 或8张RTX 2080 Ti (11G) GPU上进行有效推理，这些是使用百亿规模模型所需的最经济的GPU。

GLM-130B的模型权重已公开，其代码、训练日志、相关工具包和经验教训已在以下地址开源：https://github.com/THUDM/GLM-130B/

论文地址：https://arxiv.org/abs/2210.02414

25 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

GLM-130B：双语预训练大语言模型的高效训练与应用

GLM-130B: 一个开源的百亿参数双语预训练模型

摘要