AutoAWQ Kernels 是一个从主仓库中拆分出来的新包,旨在避免编译时间过长的问题。
该包在 PyPi 上提供了 CUDA 12.4.1 的预编译 wheel 包:
pip install autoawq-kernels
要从源码构建内核,首先需要配置一个包含必要依赖项的环境。
rocsparse-dev hipsparse-dev rocthrust-dev rocblas-dev hipblas-dev。pip install git+https://github.com/casper-hansen/AutoAWQ_kernels.git
关于环境变量的说明:
- TORCH_VERSION:默认情况下,我们使用 torch.__version__ 获取的当前 PyTorch 版本进行构建。你可以通过 TORCH_VERSION 环境变量覆盖此设置。
- 同样,可以使用 CUDA_VERSION 或 ROCM_VERSION 来为特定版本的 CUDA 或 ROCm 进行构建。
- CC 和 CXX:你可以指定用于编译 C 代码的构建系统,例如:CC=g++-13 CXX=g++-13 pip install -e .
- COMPUTE_CAPABILITIES:你可以指定要编译的特定计算能力:COMPUTE_CAPABILITIES="75,80,86,87,89,90" pip install -e .