Real Toxicity Prompts 数据集简介
数据集概述
由 AllenAI 发布的数据集,旨在研究和检测语言模型生成内容中的毒性(有害、冒犯性)问题。数据集基于真实网络文本构建,用于评估模型生成安全性的基准工具。
主要用途
- 评估语言模型生成文本的毒性风险
- 训练和测试内容安全过滤系统
- 研究语言模型偏见与有害内容生成机制
数据类型与模态
- 模态类型:表格数据、文本数据
- 数据格式:JSON
- 数据内容:包含文本提示及相关的毒性标注信息
数据规模
- 总数据量:99,442 行记录
- 下载量:7,941 次
- 社区认可度:113 次点赞
使用场景
适用于自然语言处理安全研究、内容审核算法开发、语言模型伦理评估等领域的研究人员和开发者。