Llama Guard — 用于 LLM 安全审查与内容过滤的模型项目

cobaltix · 2026-02-27 00:04:35 · 6 次点击 · 0 条评论

🤗 Hugging Face 上的模型 | 博客 | 网站 | CyberSec Eval 论文 | Llama Guard 论文
--- # Purple Llama Purple Llama 是一个综合性项目，旨在汇集各类工具和评估基准，帮助社区基于开源生成式 AI 模型进行负责任的构建。初始版本将包含网络安全以及输入/输出安全防护相关的工具和评估，我们计划在不久的将来贡献更多内容。 ## 为什么是“紫色”？借鉴网络安全领域的[概念](https://www.youtube.com/watch?v=ab_Fdp6FVDI)，我们认为要真正缓解生成式 AI 带来的挑战，需要同时采取攻击（红队）和防御（蓝队）姿态。紫队融合了红队和蓝队的职责，是一种协作评估和缓解潜在风险的方法。同样的理念适用于生成式 AI，因此我们对 Purple Llama 的投入将是全面而综合的。 ## 许可证 Purple Llama 项目内的组件将采用宽松许可证，允许研究和商业用途。我们相信这是促进社区协作、标准化生成式 AI 开发中信任与安全工具开发和使用的重要一步。具体而言，评估和基准测试采用 MIT 许可证，而模型则使用相应的 Llama 社区许可证。详见下表： | **组件类型** | **组件** | **许可证** | | :--------------- | :------------------------------------: | :-------------------------------------------------------------------------------------------: | | 评估/基准测试 | 网络安全评估（未来将包含更多） | MIT | | 安全防护 | Llama Guard | [Llama 2 社区许可证](https://github.com/facebookresearch/PurpleLlama/blob/main/LICENSE) | | 安全防护 | Llama Guard 2 | [Llama 3 社区许可证](https://github.com/meta-llama/llama3/blob/main/LICENSE) | | 安全防护 | Llama Guard 3-8B | [Llama 3.2 社区许可证](LICENSE) | | 安全防护 | Llama Guard 3-1B | [Llama 3.2 社区许可证](LICENSE) | | 安全防护 | Llama Guard 3-11B-vision | [Llama 3.2 社区许可证](LICENSE) | | 安全防护 | Prompt Guard | [Llama 3.2 社区许可证](LICENSE) | | 安全防护 | Code Shield | MIT | ## 系统级安全防护正如我们在 Llama 3 的[负责任使用指南](https://ai.meta.com/llama/responsible-use-guide/)中所述，我们建议根据应用程序适用的内容准则，对所有输入和输出到 LLM 的内容进行检查和过滤。 ### Llama Guard Llama Guard 3 是一系列高性能的输入和输出审核模型，旨在帮助开发者检测各种常见类型的违规内容。这些模型通过对 Meta-Llama 3.1 和 3.2 模型进行微调构建而成，并针对支持检测 MLCommons 标准危害分类法进行了优化，以满足开发者的多种用例需求。它们支持 Llama 3.2 的功能发布，包括 7 种新语言、128k 上下文窗口以及图像推理。Llama Guard 3 模型还针对检测有害的网络攻击响应以及防止 LLM 生成的恶意代码在使用代码解释器的 Llama 系统托管环境中执行进行了优化。 ### Prompt Guard Prompt Guard 是一个强大的工具，用于保护基于 LLM 的应用程序免受恶意提示攻击，确保其安全性和完整性。提示攻击的类别包括提示注入和越狱： * **提示注入**：指利用来自第三方的不可信数据插入模型上下文窗口，以使其执行非预期指令的输入。 * **越狱**：指旨在覆盖模型内置安全防护功能的恶意指令。 ### Code Shield Code Shield 增加了对 LLM 生成的不安全代码进行推理时过滤的支持。它提供了不安全代码建议风险缓解、代码解释器滥用防护和安全命令执行等功能。[CodeShield 示例 Notebook](https://github.com/meta-llama/PurpleLlama/blob/main/CodeShield/notebook/CodeShieldUsageDemo.ipynb)。 ## 评估与基准测试 ### 网络安全 #### CyberSec Eval v1 CyberSec Eval v1 是我们认为首个面向全行业的 LLM 网络安全安全评估套件。这些基准测试基于行业指南和标准（例如 CWE 和 MITRE ATT&CK），并与我们的安全领域专家合作构建。我们旨在提供工具，帮助解决[白宫关于开发负责任 AI 的承诺](https://www.whitehouse.gov/briefing-room/statements-releases/2023/07/21/fact-sheet-biden-harris-administration-secures-voluntary-commitments-from-leading-artificial-intelligence-companies-to-manage-the-risks-posed-by-ai/)中概述的一些风险，包括： * 量化 LLM 网络安全风险的指标。 * 评估不安全代码建议频率的工具。 * 评估 LLM 使其更难生成恶意代码或协助实施网络攻击的工具。我们相信这些工具将减少 LLM 建议不安全 AI 生成代码的频率，并降低其对网络攻击者的帮助程度。我们的初步结果表明，LLM 在推荐不安全代码和响应恶意请求方面存在显著的网络安全风险。更多详情请参阅我们的 [Cybersec Eval 论文](https://ai.meta.com/research/publications/purple-llama-cyberseceval-a-benchmark-for-evaluating-the-cybersecurity-risks-of-large-language-models/)。 #### CyberSec Eval 2 CyberSec Eval 2 在其前身基础上进行了扩展，用于衡量 LLM 滥用代码解释器的倾向、攻击性网络安全能力以及对提示注入的易感性。你可以在此处阅读[论文](https://ai.meta.com/research/publications/cyberseceval-2-a-wide-ranging-cybersecurity-evaluation-suite-for-large-language-models/)。你也可以在 🤗 查看[排行榜](https://huggingface.co/spaces/facebook/CyberSecEval)。 #### CyberSec Eval 3 新发布的 CyberSec Eval 3 包含三个额外的测试套件：视觉提示注入测试、鱼叉式网络钓鱼能力测试和自主攻击性网络操作测试。 ## 快速开始作为 [Llama 参考系统](https://github.com/meta-llama/llama-agentic-system) 的一部分，我们正在集成一个安全层，以促进这些安全防护措施的采用和部署。有关如何开始使用这些安全防护的资源，请访问 [Llama-recipes GitHub 仓库](https://github.com/meta-llama/llama-recipes)。 ## 常见问题解答关于 Purple Llama 组件以及 Llama 模型的常见问题解答，请参见此处的 [FAQ](https://ai.meta.com/llama/faq/)。 ## 加入 Purple Llama 社区有关如何提供帮助的信息，请参阅 [CONTRIBUTING](CONTRIBUTING.md) 文件。

项目地址：https://github.com/meta-llama/PurpleLlama

6 次点击 ∙ 0 人收藏

登录后收藏

0 条回复