数据集简介
由 NVIDIA 发布的 OpenMathReasoning 是一个专注于数学推理的大规模文本数据集。它旨在为训练和评估大型语言模型(LLM)的数学问题解决与逻辑推理能力提供高质量的语料。
主要用途
- 训练和微调语言模型,提升其数学推理、解题和分步推导能力。
- 作为基准数据集,用于评估模型在复杂数学问题上的性能。
- 支持数学教育、自动解题、代码生成(如将数学问题转化为计算步骤)等相关研究。
数据类型/模态
- 模态:纯文本(text)。
- 内容:包含数学问题、推导步骤、解答和可能的解释性文本。
规模或统计信息
- 数据量:约 567.8 万行(样本)。
- 格式:Parquet。
- 支持库:datasets, dask, mlcroissant, polars。
使用场景
- AI 研究:用于开发更强大的数学推理模型,如专攻数学的 LLM。
- 教育科技:构建智能辅导系统,自动解答数学问题并提供分步指导。
- 基准测试:作为评估模型数学能力的标准数据集之一。