数据集简介
WildGuardMix 是由 AllenAI 发布的一个开源数据集,主要用于内容安全与审核相关的任务。它包含了大量经过标注的文本数据,旨在帮助训练和评估模型对有害或不当内容的识别能力。
主要用途
- 训练和评估内容安全与审核模型
- 研究有害文本检测与分类
- 作为基准数据集用于模型性能对比
数据类型/模态
- 模态类型:表格数据(tabular)与文本(text)
- 数据格式:Parquet
- 数据规模:包含 88,484 条数据行
使用场景
- 开发社交媒体、在线平台的内容过滤系统
- 学术研究中的自然语言处理与安全领域
- 机器学习模型在真实场景下的鲁棒性测试