数据集简介
Nemotron-ClimbMix 是由 NVIDIA 发布的一个大规模表格数据集,主要用于训练和评估大型语言模型(LLMs)。
主要用途
该数据集旨在为语言模型提供高质量的合成数据,以提升其在代码生成、数学推理、逻辑推理和常识问答等复杂任务上的性能。
数据类型/模态
- 模态类型:表格数据
- 数据格式:JSON
规模与统计信息
- 数据量:约 3.55 亿行数据
- 下载量:超过 3000 次
使用场景
适用于需要大规模、多样化合成数据的研究与开发场景,特别是在:
- 语言模型的预训练与指令微调
- 代码生成与理解模型的训练
- 数学与逻辑推理能力的增强