作者: Shuming Ma, Hongyu Wang, Lingxiao Ma, Lei Wang, Wenhui Wang, Shaohan Huang, Li Dong, Ruiping Wang, Jilong Xue, Furu Wei
提交日期: 2024年2月27日
摘要:
近期研究(如 BitNet)正在为1比特大型语言模型(LLMs)的新时代铺平道路。在这项工作中,我们介绍了一种1比特LLM变体,即 BitNet b1.58,其中LLM的每个参数(或权重)都是三元值 {-1, 0, 1}。在困惑度和端任务性能方面,它与具有相同模型规模和训练词元的全精度(即 FP16 或 BF16)Transformer LLM 相媲美,同时在延迟、内存、吞吐量和能耗方面显著更具成本效益。更重要的是,这种1.58比特的LLM定义了一种新的缩放定律和训练方法,用于训练兼具高性能和成本效益的新一代LLM。此外,它实现了一种新的计算范式,并为设计针对1比特LLM优化的专用硬件打开了大门。
主题分类:
- 计算与语言 (cs.CL)
- 机器学习 (cs.LG)
备注: 进行中的工作