DBRX Inference? 不，llamafile — 把大模型打包成可执行文件的部署方案

friend · 2026-05-28 11:00:27 · 51 次点击 · 0 条评论

llamafile

[羊驼头部线条画，位于半开的文件夹前方，文件夹内装满文件]

llamafile 让您只需一个文件即可分发和运行 LLM。

llamafile 是 Mozilla Builders 的一个项目（参见其公告博客文章），现在由 Mozilla.ai 重新打造。

我们的目标是让开放 LLM 对开发者和最终用户都更加易用。为此，我们将 llama.cpp 与 Cosmopolitan Libc 整合到一个框架中，将 LLM 的所有复杂性压缩到一个单一的可执行文件（称为“llamafile”）中，该文件可在大多数操作系统和 CPU 架构上本地运行，无需安装。

llamafile 还包含 whisperfile，这是一个基于 whisper.cpp 和相同 Cosmopolitan 打包技术的单文件语音转文字工具。它支持在所有相同平台上的音频转录和翻译，同样无需安装。

v0.10.*

从 0.10.0 版本开始的 llamafile 使用了新的构建系统，旨在使我们的代码更容易与最新版本的 llama.cpp 保持一致。这意味着它们支持更新的模型和功能，但同时可能会缺少您习惯的一些特性（请查看此文档了解所做工作的高级描述）。如果您更喜欢“经典体验”，您随时可以从我们的发布页面访问以前的版本。我们的预构建 llamafile 始终会显示其捆绑的服务器的版本号（0.9.* 示例，0.10.* 示例），因此您始终知道正在下载的是哪个版本的软件。

我们期待您的反馈！
无论您是新用户还是老粉丝，请告诉我们您认为 llamafile 最有价值的地方，以及如何让它对您更有用。
通过博客了解更多，并在此处加入讨论。

快速开始

几分钟内下载并运行您的第一个 llamafile：

# 下载示例模型（Qwen3.5 0.8B）
curl -LO https://huggingface.co/mozilla-ai/llamafile_0.10/resolve/main/Qwen3.5-0.8B-Q8_0.llamafile

# 赋予可执行权限（macOS/Linux/BSD）
chmod +x Qwen3.5-0.8B-Q8_0.llamafile

# 运行它
./Qwen3.5-0.8B-Q8_0.llamafile

我们选择这个模型是因为这是我们构建 llamafile 的最小模型，因此最有可能为您开箱即用。如果您拥有强大的硬件和/或 GPU，请随意选择更大、更具表现力的模型，它们应能提供更准确的响应。

Windows 用户： 在运行之前，将文件重命名为添加 .exe 扩展名。

注意 - 只有小于 4GB 的可执行文件才能在 Windows 上运行，因此任何超过 4GB 的 llamafile 都无法工作。下载 llamafile 二进制文件，并使用任何外部权重/模型(GGUF) 运行它。

文档

查看 docs.mozilla.ai/llamafile 的完整文档，或直接跳转到以下子章节之一：

许可证

虽然 llamafile 项目采用 Apache 2.0 许可证，但我们对 llama.cpp 和 whisper.cpp 的更改采用 MIT 许可证（与这些项目本身一样），以便将来如果需要，可以保持兼容性并向上游合并。

此页面上的 llamafile 徽标是通过 DALL·E 3 生成的。

项目地址：https://github.com/Mozilla-Ocho/llamafile

51 次点击 ∙ 0 人收藏

登录后收藏

0 条回复