BitNet：1比特 Transformer 时代下的模型缩放定律

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

BitNet: Scaling 1-bit Transformers for Large Language Models

作者： Hongyu Wang, Shuming Ma, Li Dong, Shaohan Huang, Huaijie Wang, Lingxiao Ma, Fan Yang, Ruiping Wang, Yi Wu, Furu Wei

提交日期： 2023年10月17日

主题/分类： 计算与语言 (cs.CL)

摘要：
大型语言模型规模的不断增长给部署带来了挑战，并因其高能耗引发了环境影响的担忧。在这项工作中，我们提出了BitNet，一种为大型语言模型设计的、可扩展且稳定的1位Transformer架构。具体来说，我们引入了BitLinear作为nn.Linear层的即插即用替代品，以便从头开始训练1位权重。语言建模的实验结果表明，与最先进的8位量化方法和FP16 Transformer基线相比，BitNet在显著减少内存占用和能耗的同时，实现了具有竞争力的性能。此外，BitNet展现出与全精度Transformer相似的缩放定律，这表明其在保持效率和性能优势的同时，有潜力有效地扩展到更大的语言模型。

备注： 工作进展中。

论文地址：https://arxiv.org/abs/2310.11453

23 次点击 ∙ 0 人收藏

登录后收藏

0 条回复