Nemotron-ClimbMix 数据集简介

数据集简介
Nemotron-ClimbMix 是由 NVIDIA 发布的一个大规模表格数据集，主要用于训练和评估大型语言模型（LLMs）。

主要用途
该数据集旨在为语言模型提供高质量的合成数据，以提升其在代码生成、数学推理、逻辑推理和常识问答等复杂任务上的性能。

数据类型/模态
- 模态类型：表格数据
- 数据格式：JSON

规模与统计信息
- 数据量：约 3.55 亿行数据
- 下载量：超过 3000 次

使用场景
适用于需要大规模、多样化合成数据的研究与开发场景，特别是在：
- 语言模型的预训练与指令微调
- 代码生成与理解模型的训练
- 数学与逻辑推理能力的增强

59 次点击 ∙ 0 人收藏

登录后收藏

表格处理

0 条回复