OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2310.11453

BitNet:1比特 Transformer 时代下的模型缩放定律

 
  logging ·  2026-01-10 00:18:14 · 9 次点击  · 0 条评论  

BitNet: Scaling 1-bit Transformers for Large Language Models

作者: Hongyu Wang, Shuming Ma, Li Dong, Shaohan Huang, Huaijie Wang, Lingxiao Ma, Fan Yang, Ruiping Wang, Yi Wu, Furu Wei

提交日期: 2023年10月17日

主题/分类: 计算与语言 (cs.CL)

摘要:
大型语言模型规模的不断增长给部署带来了挑战,并因其高能耗引发了环境影响的担忧。在这项工作中,我们提出了BitNet,一种为大型语言模型设计的、可扩展且稳定的1位Transformer架构。具体来说,我们引入了BitLinear作为nn.Linear层的即插即用替代品,以便从头开始训练1位权重。语言建模的实验结果表明,与最先进的8位量化方法和FP16 Transformer基线相比,BitNet在显著减少内存占用和能耗的同时,实现了具有竞争力的性能。此外,BitNet展现出与全精度Transformer相似的缩放定律,这表明其在保持效率和性能优势的同时,有潜力有效地扩展到更大的语言模型。

备注: 工作进展中。

9 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 16 ms
Developed with Cursor