🤗 Hugging Face 上的模型 | 博客 | 网站 | CyberSec Eval 论文 | Llama Guard 论文
---
# Purple Llama
Purple Llama 是一个综合性项目,旨在汇集各类工具和评估基准,帮助社区基于开源生成式 AI 模型进行负责任的构建。初始版本将包含网络安全以及输入/输出安全防护相关的工具和评估,我们计划在不久的将来贡献更多内容。
## 为什么是“紫色”?
借鉴网络安全领域的[概念](https://www.youtube.com/watch?v=ab_Fdp6FVDI),我们认为要真正缓解生成式 AI 带来的挑战,需要同时采取攻击(红队)和防御(蓝队)姿态。紫队融合了红队和蓝队的职责,是一种协作评估和缓解潜在风险的方法。同样的理念适用于生成式 AI,因此我们对 Purple Llama 的投入将是全面而综合的。
## 许可证
Purple Llama 项目内的组件将采用宽松许可证,允许研究和商业用途。我们相信这是促进社区协作、标准化生成式 AI 开发中信任与安全工具开发和使用的重要一步。具体而言,评估和基准测试采用 MIT 许可证,而模型则使用相应的 Llama 社区许可证。详见下表:
| **组件类型** | **组件** | **许可证** |
| :--------------- | :------------------------------------: | :-------------------------------------------------------------------------------------------: |
| 评估/基准测试 | 网络安全评估(未来将包含更多) | MIT |
| 安全防护 | Llama Guard | [Llama 2 社区许可证](https://github.com/facebookresearch/PurpleLlama/blob/main/LICENSE) |
| 安全防护 | Llama Guard 2 | [Llama 3 社区许可证](https://github.com/meta-llama/llama3/blob/main/LICENSE) |
| 安全防护 | Llama Guard 3-8B | [Llama 3.2 社区许可证](LICENSE) |
| 安全防护 | Llama Guard 3-1B | [Llama 3.2 社区许可证](LICENSE) |
| 安全防护 | Llama Guard 3-11B-vision | [Llama 3.2 社区许可证](LICENSE) |
| 安全防护 | Prompt Guard | [Llama 3.2 社区许可证](LICENSE) |
| 安全防护 | Code Shield | MIT |
## 系统级安全防护
正如我们在 Llama 3 的[负责任使用指南](https://ai.meta.com/llama/responsible-use-guide/)中所述,我们建议根据应用程序适用的内容准则,对所有输入和输出到 LLM 的内容进行检查和过滤。
### Llama Guard
Llama Guard 3 是一系列高性能的输入和输出审核模型,旨在帮助开发者检测各种常见类型的违规内容。
这些模型通过对 Meta-Llama 3.1 和 3.2 模型进行微调构建而成,并针对支持检测 MLCommons 标准危害分类法进行了优化,以满足开发者的多种用例需求。它们支持 Llama 3.2 的功能发布,包括 7 种新语言、128k 上下文窗口以及图像推理。Llama Guard 3 模型还针对检测有害的网络攻击响应以及防止 LLM 生成的恶意代码在使用代码解释器的 Llama 系统托管环境中执行进行了优化。
### Prompt Guard
Prompt Guard 是一个强大的工具,用于保护基于 LLM 的应用程序免受恶意提示攻击,确保其安全性和完整性。
提示攻击的类别包括提示注入和越狱:
* **提示注入**:指利用来自第三方的不可信数据插入模型上下文窗口,以使其执行非预期指令的输入。
* **越狱**:指旨在覆盖模型内置安全防护功能的恶意指令。
### Code Shield
Code Shield 增加了对 LLM 生成的不安全代码进行推理时过滤的支持。它提供了不安全代码建议风险缓解、代码解释器滥用防护和安全命令执行等功能。[CodeShield 示例 Notebook](https://github.com/meta-llama/PurpleLlama/blob/main/CodeShield/notebook/CodeShieldUsageDemo.ipynb)。
## 评估与基准测试
### 网络安全
#### CyberSec Eval v1
CyberSec Eval v1 是我们认为首个面向全行业的 LLM 网络安全安全评估套件。这些基准测试基于行业指南和标准(例如 CWE 和 MITRE ATT&CK),并与我们的安全领域专家合作构建。我们旨在提供工具,帮助解决[白宫关于开发负责任 AI 的承诺](https://www.whitehouse.gov/briefing-room/statements-releases/2023/07/21/fact-sheet-biden-harris-administration-secures-voluntary-commitments-from-leading-artificial-intelligence-companies-to-manage-the-risks-posed-by-ai/)中概述的一些风险,包括:
* 量化 LLM 网络安全风险的指标。
* 评估不安全代码建议频率的工具。
* 评估 LLM 使其更难生成恶意代码或协助实施网络攻击的工具。
我们相信这些工具将减少 LLM 建议不安全 AI 生成代码的频率,并降低其对网络攻击者的帮助程度。我们的初步结果表明,LLM 在推荐不安全代码和响应恶意请求方面存在显著的网络安全风险。更多详情请参阅我们的 [Cybersec Eval 论文](https://ai.meta.com/research/publications/purple-llama-cyberseceval-a-benchmark-for-evaluating-the-cybersecurity-risks-of-large-language-models/)。
#### CyberSec Eval 2
CyberSec Eval 2 在其前身基础上进行了扩展,用于衡量 LLM 滥用代码解释器的倾向、攻击性网络安全能力以及对提示注入的易感性。你可以在此处阅读[论文](https://ai.meta.com/research/publications/cyberseceval-2-a-wide-ranging-cybersecurity-evaluation-suite-for-large-language-models/)。
你也可以在 🤗 查看[排行榜](https://huggingface.co/spaces/facebook/CyberSecEval)。
#### CyberSec Eval 3
新发布的 CyberSec Eval 3 包含三个额外的测试套件:视觉提示注入测试、鱼叉式网络钓鱼能力测试和自主攻击性网络操作测试。
## 快速开始
作为 [Llama 参考系统](https://github.com/meta-llama/llama-agentic-system) 的一部分,我们正在集成一个安全层,以促进这些安全防护措施的采用和部署。
有关如何开始使用这些安全防护的资源,请访问 [Llama-recipes GitHub 仓库](https://github.com/meta-llama/llama-recipes)。
## 常见问题解答
关于 Purple Llama 组件以及 Llama 模型的常见问题解答,请参见此处的 [FAQ](https://ai.meta.com/llama/faq/)。
## 加入 Purple Llama 社区
有关如何提供帮助的信息,请参阅 [CONTRIBUTING](CONTRIBUTING.md) 文件。