AirLLM 优化了推理内存的使用,使得 70B 参数的大语言模型无需量化、蒸馏或剪枝,即可在单张 4GB 显存的 GPU 上运行推理。现在,你甚至可以在 8GB 显存 上运行 405B 参数的 Llama3.1。
项目已迁移至:https://github.com/lyogavin/airllm