数据集简介
OpenMathInstruct-2 是由 NVIDIA 发布的一个大规模数学指令微调数据集,旨在提升大型语言模型在数学推理和问题求解方面的能力。
主要用途
该数据集主要用于训练或微调语言模型,使其能够更好地理解和解决数学问题,适用于数学教育、自动解题、代码生成(与数学计算相关)等场景。
数据类型与模态
- 模态类型:纯文本(text)。
- 数据格式:主要以 Parquet 格式存储。
- 内容特点:包含数学问题和对应的指令、解答或推理过程。
规模与统计
- 数据量:非常大,包含超过 2197万 条数据样本。
- 受欢迎程度:下载量超过 1.5 万次,获得了 230 个点赞。
使用场景
- 模型训练:作为指令微调数据,专门用于提升语言模型的数学能力。
- 研究开发:适用于AI数学推理、教育科技、代码生成等领域的研发工作。
- 基准测试:可作为评估模型数学问题求解性能的参考数据集。