OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
OA0  ›  代码  ›  BitsAndBytes — 低比特量化库

BitsAndBytes — 低比特量化库

 
  script ·  2026-02-28 01:06:37 · 4 次点击  · 0 条评论  

bitsandbytes

License Downloads Nightly Unit Tests GitHub Release PyPI - Python Version

bitsandbytes 通过 k 位量化技术,为 PyTorch 提供了可访问的大型语言模型支持。我们提供了三大核心功能,可显著降低推理和训练过程中的内存消耗:

  • 8 位优化器:采用块级量化技术,以极小的内存开销维持 32 位性能。
  • LLM.int8() 或 8 位量化:仅需一半内存即可进行大型语言模型推理,且性能无损。该方法基于向量级量化,将大部分特征量化为 8 位,并单独使用 16 位矩阵乘法处理异常值。
  • QLoRA 或 4 位量化:结合多种内存节省技术,实现大型语言模型训练,且不牺牲性能。该方法将模型量化为 4 位,并插入少量可训练的低秩适配(LoRA)权重以支持训练。

该库通过 bitsandbytes.nn.Linear8bitLtbitsandbytes.nn.Linear4bit 提供了 8 位和 4 位操作的量化原语,并通过 bitsandbytes.optim 模块提供了 8 位优化器。

系统要求

bitsandbytes 对所有平台有以下最低要求:

  • Python 3.10+
  • PyTorch 2.3+
    • 注意:虽然我们致力于提供广泛的向后兼容性,但建议使用最新版本的 PyTorch 以获得最佳体验。

加速器支持:

注意:此表反映了当前开发分支的状态。有关最新稳定版本的信息,请参阅 0.49.2 标签中的文档

图例:

🚧 = 开发中,
〰️ = 部分支持,
✅ = 支持,
🐢 = 支持慢速实现,
❌ = 不支持

平台 加速器 硬件要求 LLM.int8() QLoRA 4-bit 8-bit Optimizers
🐧 Linux, glibc >= 2.24
x86-64 ◻️ CPU 最低要求:AVX2
优化要求:AVX512F, AVX512BF16
🟩 NVIDIA GPU
cuda
最低要求:SM60+
推荐:SM75+
🟥 AMD GPU
cuda
CDNA: gfx90a, gfx942, gfx950
RDNA: gfx1100, gfx1101, gfx1150, gfx1151, gfx1200, gfx1201
🟦 Intel GPU
xpu
数据中心 GPU Max 系列
Arc A 系列(炼金术士)
Arc B 系列(战法师)
〰️
🟪 Intel Gaudi
hpu
Gaudi2, Gaudi3 〰️
aarch64 ◻️ CPU
🟩 NVIDIA GPU
cuda
SM75+
🪟 Windows 11 / Windows Server 2022+
x86-64 ◻️ CPU AVX2
🟩 NVIDIA GPU
cuda
最低要求:SM60+
推荐:SM75+
🟦 Intel GPU
xpu
Arc A 系列(炼金术士)
Arc B 系列(战法师)
〰️
🍎 macOS 14+
arm64 ◻️ CPU Apple M1+
⬜ Metal
mps
Apple M1+ 🐢 🐢

:book: 文档

:heart: 赞助商

bitsandbytes 的持续维护和开发得益于我们赞助商的慷慨支持。他们的贡献帮助我们能够不断改进项目,并向社区提供有价值的更新。

Hugging Face
 
Intel

许可证

bitsandbytes 采用 MIT 许可证。

如何引用我们

如果您觉得这个库有用,请考虑引用我们的工作:

QLoRA

@article{dettmers2023qlora,
  title={Qlora: Efficient finetuning of quantized llms},
  author={Dettmers, Tim and Pagnoni, Artidoro and Holtzman, Ari and Zettlemoyer, Luke},
  journal={arXiv preprint arXiv:2305.14314},
  year={2023}
}

LLM.int8()

@article{dettmers2022llmint8,
  title={LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale},
  author={Dettmers, Tim and Lewis, Mike and Belkada, Younes and Zettlemoyer, Luke},
  journal={arXiv preprint arXiv:2208.07339},
  year={2022}
}

8-bit Optimizers

@article{dettmers2022optimizers,
  title={8-bit Optimizers via Block-wise Quantization},
  author={Dettmers, Tim and Lewis, Mike and Shleifer, Sam and Zettlemoyer, Luke},
  journal={9th International Conference on Learning Representations, ICLR},
  year={2022}
}
4 次点击  ∙  0 人收藏  
登录后收藏  
目前尚无回复
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor