The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

作者： Shuming Ma, Hongyu Wang, Lingxiao Ma, Lei Wang, Wenhui Wang, Shaohan Huang, Li Dong, Ruiping Wang, Jilong Xue, Furu Wei

提交日期： 2024年2月27日

摘要：
近期研究（如 BitNet）正在为1比特大型语言模型（LLMs）的新时代铺平道路。在这项工作中，我们介绍了一种1比特LLM变体，即 BitNet b1.58，其中LLM的每个参数（或权重）都是三元值 {-1, 0, 1}。在困惑度和端任务性能方面，它与具有相同模型规模和训练词元的全精度（即 FP16 或 BF16）Transformer LLM 相媲美，同时在延迟、内存、吞吐量和能耗方面显著更具成本效益。更重要的是，这种1.58比特的LLM定义了一种新的缩放定律和训练方法，用于训练兼具高性能和成本效益的新一代LLM。此外，它实现了一种新的计算范式，并为设计针对1比特LLM优化的专用硬件打开了大门。

主题分类：
- 计算与语言 (cs.CL)
- 机器学习 (cs.LG)

备注： 进行中的工作

论文地址：https://arxiv.org/abs/2402.17764

22 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

BitNet 1.58b：所有大语言模型都应该使用 1.58 比特

The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits