Nemotron-Cascade-SFT-Stage-1 数据集简介
概述
该数据集由 NVIDIA 发布,是用于支持 Nemotron-Cascade 模型进行有监督微调(SFT)的第一阶段训练数据。
主要用途
- 模型微调:专门用于大型语言模型(如 Nemotron-Cascade)的有监督微调训练。
- 指令遵循:帮助模型学习理解和执行人类指令。
数据类型与模态
- 模态:纯文本数据
- 格式:JSON 格式
- 内容:包含高质量的指令-响应对,用于训练模型生成符合要求的文本输出。
数据规模
- 样本数量:约 361.9 万条数据记录
- 更新情况:最后更新于 2025 年 12 月
使用场景
- 研究人员和开发者可用于:
- 复现或改进 NVIDIA Nemotron-Cascade 模型的微调过程
- 构建自定义的指令遵循模型
- 作为高质量对话或指令数据集的参考