数据集简介
NVIDIA 发布的 Nemotron-Instruction-Following-Chat-v1 是一个用于训练或微调指令遵循型对话模型的大规模文本数据集。
主要用途
该数据集旨在帮助模型学习如何理解和遵循用户的自然语言指令,从而生成符合要求的、高质量的对话回复。适用于构建或优化聊天机器人、AI助手等对话式AI应用。
数据类型与模态
- 模态:纯文本(Text)
- 数据格式:JSON
- 数据内容:包含指令-回复对,即用户提供的指令(或问题)与对应的理想回复。
规模与统计信息
- 数据量:包含约 28.8 万条数据样本(行)。
- 热度:截至统计时,已获得超过 1,900 次下载和 100 余次点赞,表明其在社区中具有一定的关注度和实用性。
使用场景
- 模型微调:对现有的大型语言模型(LLM)进行指令遵循能力的监督微调(SFT)。
- 模型训练:作为预训练数据的补充,用于从头开始训练具备对话能力的模型。
- 评估基准:可用于评估模型在理解和执行多样化指令方面的性能。