![[羊驼头部线条画,位于半开的文件夹前方,文件夹内装满文件]](docs/images/llamafile-640x640.png)
llamafile 让您只需一个文件即可分发和运行 LLM。
llamafile 是 Mozilla Builders 的一个项目(参见其公告博客文章),现在由 Mozilla.ai 重新打造。
我们的目标是让开放 LLM 对开发者和最终用户都更加易用。为此,我们将 llama.cpp 与 Cosmopolitan Libc 整合到一个框架中,将 LLM 的所有复杂性压缩到一个单一的可执行文件(称为“llamafile”)中,该文件可在大多数操作系统和 CPU 架构上本地运行,无需安装。
llamafile 还包含 whisperfile,这是一个基于 whisper.cpp 和相同 Cosmopolitan 打包技术的单文件语音转文字工具。它支持在所有相同平台上的音频转录和翻译,同样无需安装。
从 0.10.0 版本开始的 llamafile 使用了新的构建系统,旨在使我们的代码更容易与最新版本的 llama.cpp 保持一致。这意味着它们支持更新的模型和功能,但同时可能会缺少您习惯的一些特性(请查看此文档了解所做工作的高级描述)。如果您更喜欢“经典体验”,您随时可以从我们的发布页面访问以前的版本。我们的预构建 llamafile 始终会显示其捆绑的服务器的版本号(0.9.* 示例,0.10.* 示例),因此您始终知道正在下载的是哪个版本的软件。
我们期待您的反馈!
无论您是新用户还是老粉丝,请告诉我们您认为 llamafile 最有价值的地方,以及如何让它对您更有用。
通过博客了解更多,并在此处加入讨论。
几分钟内下载并运行您的第一个 llamafile:
# 下载示例模型(Qwen3.5 0.8B)
curl -LO https://huggingface.co/mozilla-ai/llamafile_0.10/resolve/main/Qwen3.5-0.8B-Q8_0.llamafile
# 赋予可执行权限(macOS/Linux/BSD)
chmod +x Qwen3.5-0.8B-Q8_0.llamafile
# 运行它
./Qwen3.5-0.8B-Q8_0.llamafile
我们选择这个模型是因为这是我们构建 llamafile 的最小模型,因此最有可能为您开箱即用。如果您拥有强大的硬件和/或 GPU,请随意选择更大、更具表现力的模型,它们应能提供更准确的响应。
Windows 用户: 在运行之前,将文件重命名为添加 .exe 扩展名。
注意 - 只有小于 4GB 的可执行文件才能在 Windows 上运行,因此任何超过 4GB 的 llamafile 都无法工作。下载 llamafile 二进制文件,并使用任何外部权重/模型(GGUF) 运行它。
查看 docs.mozilla.ai/llamafile 的完整文档,或直接跳转到以下子章节之一:
虽然 llamafile 项目采用 Apache 2.0 许可证,但我们对 llama.cpp 和 whisper.cpp 的更改采用 MIT 许可证(与这些项目本身一样),以便将来如果需要,可以保持兼容性并向上游合并。
此页面上的 llamafile 徽标是通过 DALL·E 3 生成的。