作者: Hongyu Wang, Shuming Ma, Li Dong, Shaohan Huang, Huaijie Wang, Lingxiao Ma, Fan Yang, Ruiping Wang, Yi Wu, Furu Wei
提交日期: 2023年10月17日
主题/分类: 计算与语言 (cs.CL)
摘要:
大型语言模型规模的不断增长给部署带来了挑战,并因其高能耗引发了环境影响的担忧。在这项工作中,我们提出了BitNet,一种为大型语言模型设计的、可扩展且稳定的1位Transformer架构。具体来说,我们引入了BitLinear作为nn.Linear层的即插即用替代品,以便从头开始训练1位权重。语言建模的实验结果表明,与最先进的8位量化方法和FP16 Transformer基线相比,BitNet在显著减少内存占用和能耗的同时,实现了具有竞争力的性能。此外,BitNet展现出与全精度Transformer相似的缩放定律,这表明其在保持效率和性能优势的同时,有潜力有效地扩展到更大的语言模型。
备注: 工作进展中。