OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  代码  ›  AirLLM — 让超大模型低显存运行的推理方案

AirLLM — 让超大模型低显存运行的推理方案

 
  flash ·  2026-05-24 11:00:26 · 8 次点击  · 0 条评论  

airllm_logo

AirLLM 优化了推理内存的使用,使得 70B 参数的大语言模型无需量化、蒸馏或剪枝,即可在单张 4GB 显存的 GPU 上运行推理。现在,你甚至可以在 8GB 显存 上运行 405B 参数的 Llama3.1

GitHub Repo stars

项目已迁移至:https://github.com/lyogavin/airllm

8 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 12 ms
Developed with Cursor