OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2402.17764

BitNet 1.58b:所有大语言模型都应该使用 1.58 比特

 
  ladder ·  2024-02-27 00:00:00 · 4 次点击  · 0 条评论  

The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

作者: Shuming Ma, Hongyu Wang, Lingxiao Ma, Lei Wang, Wenhui Wang, Shaohan Huang, Li Dong, Ruiping Wang, Jilong Xue, Furu Wei

提交日期: 2024年2月27日

摘要:
近期研究(如 BitNet)正在为1比特大型语言模型(LLMs)的新时代铺平道路。在这项工作中,我们介绍了一种1比特LLM变体,即 BitNet b1.58,其中LLM的每个参数(或权重)都是三元值 {-1, 0, 1}。在困惑度和端任务性能方面,它与具有相同模型规模和训练词元的全精度(即 FP16 或 BF16)Transformer LLM 相媲美,同时在延迟、内存、吞吐量和能耗方面显著更具成本效益。更重要的是,这种1.58比特的LLM定义了一种新的缩放定律和训练方法,用于训练兼具高性能和成本效益的新一代LLM。此外,它实现了一种新的计算范式,并为设计针对1比特LLM优化的专用硬件打开了大门。

主题分类:
- 计算与语言 (cs.CL)
- 机器学习 (cs.LG)

备注: 进行中的工作

4 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor