RefusalDataset 数据集简介
数据集概述
RefusalDataset 是由 NousResearch 发布的一个文本数据集,主要用于研究和训练语言模型在特定场景下的“拒绝”或“不回应”能力。
主要用途
该数据集的核心目标是帮助模型学习如何安全、恰当地处理那些不适合回答、超出其知识范围或可能引发安全问题的用户查询,从而提升模型的可靠性和安全性。
数据类型与规模
- 模态类型:纯文本(text)
- 数据格式:JSON
- 数据规模:包含 166 条样本数据
使用场景
- AI 安全对齐研究:训练或微调模型,使其学会识别并拒绝回答有害、不道德或带有偏见的请求。
- 模型能力边界设定:帮助模型明确自身的能力范围,对于无法确认或知识范围外的问题给出恰当的“不知道”或“无法回答”的回应。
- 构建更可靠的对话系统:可用于开发客服、助手等对话系统,使其在遇到敏感或无法处理的问题时能做出得体、安全的回应。
来源
- 发布者:NousResearch
- 数据集地址:NousResearch/RefusalDataset