OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  代码  ›  AutoAWQ Kernels — 面向 AWQ 量化推理的高性能内核实现

AutoAWQ Kernels — 面向 AWQ 量化推理的高性能内核实现

 
  mysql ·  2026-03-01 16:26:11 · 8 次点击  · 0 条评论  

AutoAWQ 内核

AutoAWQ Kernels 是一个从主仓库中拆分出来的新包,旨在避免编译时间过长的问题。

系统要求

  • Windows:必须使用 WSL2。
  • NVIDIA
  • GPU:计算能力必须为 7.5 或更高。
  • CUDA Toolkit:必须为 11.8 或更高版本。
  • AMD
  • ROCm:必须为 5.6 或更高版本。从源码构建

安装

从 PyPi 安装

该包在 PyPi 上提供了 CUDA 12.4.1 的预编译 wheel 包:

pip install autoawq-kernels

从源码构建

要从源码构建内核,首先需要配置一个包含必要依赖项的环境。

构建要求

  • Python >= 3.8.0
  • Numpy
  • Wheel
  • PyTorch
  • ROCm:需要安装以下软件包:rocsparse-dev hipsparse-dev rocthrust-dev rocblas-dev hipblas-dev

构建过程

pip install git+https://github.com/casper-hansen/AutoAWQ_kernels.git

关于环境变量的说明:
- TORCH_VERSION:默认情况下,我们使用 torch.__version__ 获取的当前 PyTorch 版本进行构建。你可以通过 TORCH_VERSION 环境变量覆盖此设置。
- 同样,可以使用 CUDA_VERSIONROCM_VERSION 来为特定版本的 CUDA 或 ROCm 进行构建。
- CCCXX:你可以指定用于编译 C 代码的构建系统,例如:CC=g++-13 CXX=g++-13 pip install -e .
- COMPUTE_CAPABILITIES:你可以指定要编译的特定计算能力:COMPUTE_CAPABILITIES="75,80,86,87,89,90" pip install -e .

8 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 12 ms
Developed with Cursor