OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  代码  ›  Llama Guard — 用于 LLM 安全审查与内容过滤的模型项目

Llama Guard — 用于 LLM 安全审查与内容过滤的模型项目

 
  cobaltix ·  2026-02-27 00:04:35 · 6 次点击  · 0 条评论  

🤗 Hugging Face 上的模型  | 博客  | 网站  | CyberSec Eval 论文   | Llama Guard 论文 
--- # Purple Llama Purple Llama 是一个综合性项目,旨在汇集各类工具和评估基准,帮助社区基于开源生成式 AI 模型进行负责任的构建。初始版本将包含网络安全以及输入/输出安全防护相关的工具和评估,我们计划在不久的将来贡献更多内容。 ## 为什么是“紫色”? 借鉴网络安全领域的[概念](https://www.youtube.com/watch?v=ab_Fdp6FVDI),我们认为要真正缓解生成式 AI 带来的挑战,需要同时采取攻击(红队)和防御(蓝队)姿态。紫队融合了红队和蓝队的职责,是一种协作评估和缓解潜在风险的方法。同样的理念适用于生成式 AI,因此我们对 Purple Llama 的投入将是全面而综合的。 ## 许可证 Purple Llama 项目内的组件将采用宽松许可证,允许研究和商业用途。我们相信这是促进社区协作、标准化生成式 AI 开发中信任与安全工具开发和使用的重要一步。具体而言,评估和基准测试采用 MIT 许可证,而模型则使用相应的 Llama 社区许可证。详见下表: | **组件类型** | **组件** | **许可证** | | :--------------- | :------------------------------------: | :-------------------------------------------------------------------------------------------: | | 评估/基准测试 | 网络安全评估(未来将包含更多) | MIT | | 安全防护 | Llama Guard | [Llama 2 社区许可证](https://github.com/facebookresearch/PurpleLlama/blob/main/LICENSE) | | 安全防护 | Llama Guard 2 | [Llama 3 社区许可证](https://github.com/meta-llama/llama3/blob/main/LICENSE) | | 安全防护 | Llama Guard 3-8B | [Llama 3.2 社区许可证](LICENSE) | | 安全防护 | Llama Guard 3-1B | [Llama 3.2 社区许可证](LICENSE) | | 安全防护 | Llama Guard 3-11B-vision | [Llama 3.2 社区许可证](LICENSE) | | 安全防护 | Prompt Guard | [Llama 3.2 社区许可证](LICENSE) | | 安全防护 | Code Shield | MIT | ## 系统级安全防护 正如我们在 Llama 3 的[负责任使用指南](https://ai.meta.com/llama/responsible-use-guide/)中所述,我们建议根据应用程序适用的内容准则,对所有输入和输出到 LLM 的内容进行检查和过滤。 ### Llama Guard Llama Guard 3 是一系列高性能的输入和输出审核模型,旨在帮助开发者检测各种常见类型的违规内容。 这些模型通过对 Meta-Llama 3.1 和 3.2 模型进行微调构建而成,并针对支持检测 MLCommons 标准危害分类法进行了优化,以满足开发者的多种用例需求。它们支持 Llama 3.2 的功能发布,包括 7 种新语言、128k 上下文窗口以及图像推理。Llama Guard 3 模型还针对检测有害的网络攻击响应以及防止 LLM 生成的恶意代码在使用代码解释器的 Llama 系统托管环境中执行进行了优化。 ### Prompt Guard Prompt Guard 是一个强大的工具,用于保护基于 LLM 的应用程序免受恶意提示攻击,确保其安全性和完整性。 提示攻击的类别包括提示注入和越狱: * **提示注入**:指利用来自第三方的不可信数据插入模型上下文窗口,以使其执行非预期指令的输入。 * **越狱**:指旨在覆盖模型内置安全防护功能的恶意指令。 ### Code Shield Code Shield 增加了对 LLM 生成的不安全代码进行推理时过滤的支持。它提供了不安全代码建议风险缓解、代码解释器滥用防护和安全命令执行等功能。[CodeShield 示例 Notebook](https://github.com/meta-llama/PurpleLlama/blob/main/CodeShield/notebook/CodeShieldUsageDemo.ipynb)。 ## 评估与基准测试 ### 网络安全 #### CyberSec Eval v1 CyberSec Eval v1 是我们认为首个面向全行业的 LLM 网络安全安全评估套件。这些基准测试基于行业指南和标准(例如 CWE 和 MITRE ATT&CK),并与我们的安全领域专家合作构建。我们旨在提供工具,帮助解决[白宫关于开发负责任 AI 的承诺](https://www.whitehouse.gov/briefing-room/statements-releases/2023/07/21/fact-sheet-biden-harris-administration-secures-voluntary-commitments-from-leading-artificial-intelligence-companies-to-manage-the-risks-posed-by-ai/)中概述的一些风险,包括: * 量化 LLM 网络安全风险的指标。 * 评估不安全代码建议频率的工具。 * 评估 LLM 使其更难生成恶意代码或协助实施网络攻击的工具。 我们相信这些工具将减少 LLM 建议不安全 AI 生成代码的频率,并降低其对网络攻击者的帮助程度。我们的初步结果表明,LLM 在推荐不安全代码和响应恶意请求方面存在显著的网络安全风险。更多详情请参阅我们的 [Cybersec Eval 论文](https://ai.meta.com/research/publications/purple-llama-cyberseceval-a-benchmark-for-evaluating-the-cybersecurity-risks-of-large-language-models/)。 #### CyberSec Eval 2 CyberSec Eval 2 在其前身基础上进行了扩展,用于衡量 LLM 滥用代码解释器的倾向、攻击性网络安全能力以及对提示注入的易感性。你可以在此处阅读[论文](https://ai.meta.com/research/publications/cyberseceval-2-a-wide-ranging-cybersecurity-evaluation-suite-for-large-language-models/)。 你也可以在 🤗 查看[排行榜](https://huggingface.co/spaces/facebook/CyberSecEval)。 #### CyberSec Eval 3 新发布的 CyberSec Eval 3 包含三个额外的测试套件:视觉提示注入测试、鱼叉式网络钓鱼能力测试和自主攻击性网络操作测试。 ## 快速开始 作为 [Llama 参考系统](https://github.com/meta-llama/llama-agentic-system) 的一部分,我们正在集成一个安全层,以促进这些安全防护措施的采用和部署。 有关如何开始使用这些安全防护的资源,请访问 [Llama-recipes GitHub 仓库](https://github.com/meta-llama/llama-recipes)。 ## 常见问题解答 关于 Purple Llama 组件以及 Llama 模型的常见问题解答,请参见此处的 [FAQ](https://ai.meta.com/llama/faq/)。 ## 加入 Purple Llama 社区 有关如何提供帮助的信息,请参阅 [CONTRIBUTING](CONTRIBUTING.md) 文件。

6 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 11 ms
Developed with Cursor