AirLLM — 让超大模型低显存运行的推理方案

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

airllm_logo

AirLLM 优化了推理内存的使用，使得 70B 参数的大语言模型无需量化、蒸馏或剪枝，即可在单张 4GB 显存的 GPU 上运行推理。现在，你甚至可以在 8GB 显存 上运行 405B 参数的 Llama3.1。

项目已迁移至：https://github.com/lyogavin/airllm

项目地址：https://github.com/lyogavin/Anima

45 次点击 ∙ 0 人收藏

登录后收藏

0 条回复