数据集简介
Open-Instruct-Uncensored 是一个由 QuixiAI 发布的大规模文本指令数据集,旨在为语言模型的指令微调提供多样化的训练样本。
主要用途
该数据集主要用于训练或微调大型语言模型(LLM),使其能够更好地理解和遵循人类的各种指令,适用于开发对话助手、任务导向型AI等应用。
数据类型与模态
- 模态类型:纯文本(Text)
- 数据格式:JSON
- 数据内容:包含大量(约175.6万条)指令-响应对,覆盖广泛的主题和任务类型。
规模与统计
- 数据量:约 175.6 万行数据
- 下载量:234 次
- 社区反馈:获得 48 个点赞
核心特点与场景
- “Uncensored”特性:数据集名称暗示其可能包含较少内容过滤或审查的指令数据,适用于需要模型处理更广泛、更开放主题的研究或应用。
- 大规模与多样性:海量的指令样本有助于提升模型对复杂、多样化指令的理解和响应能力。
- 适用场景:
- 语言模型的指令跟随能力微调。
- 开发开放域对话系统。
- 学术研究,如探索模型在无严格内容限制下的行为与能力边界。