OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  代码  ›  DBRX Inference? 不,llamafile — 把大模型打包成可执行文件的部署方案

DBRX Inference? 不,llamafile — 把大模型打包成可执行文件的部署方案

 
  friend ·  2026-05-28 11:00:27 · 1 次点击  · 0 条评论  

llamafile

[羊驼头部线条画,位于半开的文件夹前方,文件夹内装满文件]

许可证
CI 状态
基于 llama.cpp
基于 whisper.cpp
Discord
Mozilla Builders

llamafile 让您只需一个文件即可分发和运行 LLM。

llamafile 是 Mozilla Builders 的一个项目(参见其公告博客文章),现在由 Mozilla.ai 重新打造。

我们的目标是让开放 LLM 对开发者和最终用户都更加易用。为此,我们将 llama.cppCosmopolitan Libc 整合到一个框架中,将 LLM 的所有复杂性压缩到一个单一的可执行文件(称为“llamafile”)中,该文件可在大多数操作系统和 CPU 架构上本地运行,无需安装。

llamafile 还包含 whisperfile,这是一个基于 whisper.cpp 和相同 Cosmopolitan 打包技术的单文件语音转文字工具。它支持在所有相同平台上的音频转录和翻译,同样无需安装。

v0.10.*

从 0.10.0 版本开始的 llamafile 使用了新的构建系统,旨在使我们的代码更容易与最新版本的 llama.cpp 保持一致。这意味着它们支持更新的模型和功能,但同时可能会缺少您习惯的一些特性(请查看此文档了解所做工作的高级描述)。如果您更喜欢“经典体验”,您随时可以从我们的发布页面访问以前的版本。我们的预构建 llamafile 始终会显示其捆绑的服务器的版本号(0.9.* 示例0.10.* 示例),因此您始终知道正在下载的是哪个版本的软件。

我们期待您的反馈!
无论您是新用户还是老粉丝,请告诉我们您认为 llamafile 最有价值的地方,以及如何让它对您更有用。
通过博客了解更多,并在此处加入讨论

快速开始

几分钟内下载并运行您的第一个 llamafile:

# 下载示例模型(Qwen3.5 0.8B)
curl -LO https://huggingface.co/mozilla-ai/llamafile_0.10/resolve/main/Qwen3.5-0.8B-Q8_0.llamafile

# 赋予可执行权限(macOS/Linux/BSD)
chmod +x Qwen3.5-0.8B-Q8_0.llamafile

# 运行它
./Qwen3.5-0.8B-Q8_0.llamafile

我们选择这个模型是因为这是我们构建 llamafile 的最小模型,因此最有可能为您开箱即用。如果您拥有强大的硬件和/或 GPU,请随意选择更大、更具表现力的模型,它们应能提供更准确的响应。

Windows 用户: 在运行之前,将文件重命名为添加 .exe 扩展名。

注意 - 只有小于 4GB 的可执行文件才能在 Windows 上运行,因此任何超过 4GB 的 llamafile 都无法工作。下载 llamafile 二进制文件,并使用任何外部权重/模型(GGUF) 运行它。

文档

查看 docs.mozilla.ai/llamafile 的完整文档,或直接跳转到以下子章节之一:

许可证

虽然 llamafile 项目采用 Apache 2.0 许可证,但我们对 llama.cpp 和 whisper.cpp 的更改采用 MIT 许可证(与这些项目本身一样),以便将来如果需要,可以保持兼容性并向上游合并。

此页面上的 llamafile 徽标是通过 DALL·E 3 生成的。

星历图

1 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 15 ms
Developed with Cursor