allenai/wildjailbreak

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

WildJailbreak 是一个由 AllenAI 发布的数据集，旨在研究大语言模型（LLM）的“越狱”行为，即如何通过特定输入绕过模型的安全限制。

主要用途

用于分析和评估大语言模型在面对非常规、对抗性或创造性提示时的安全性与鲁棒性，帮助研究人员识别和防范潜在的模型安全漏洞。

数据类型/模态

文本：包含用于测试的提示词或对话数据。
图像：可能包含与文本提示相关的视觉内容，用于多模态测试场景。

规模与统计

数据量：2,210 行
下载量：4,303 次
点赞数：107

使用场景

安全研究：测试和提升 LLM 的安全对齐能力。
对抗性测试：构建和评估针对模型安全机制的对抗性示例。
多模态安全：探索文本与图像结合输入下的模型安全边界。

数据集地址：https://huggingface.co/datasets/allenai/wildjailbreak

32 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 28 ms

Developed with Cursor