AceMath-RewardBench 数据集简介
概述
这是一个由 NVIDIA 发布的文本数据集,主要用于评估和训练数学推理相关的奖励模型(Reward Model)。
主要用途
- 用于奖励模型的训练与评估。
- 专注于数学推理任务的性能基准测试。
数据类型与模态
- 模态:纯文本(text)
- 格式:JSON
- 规模:包含 18,518 行数据
核心特点
- 数据集专注于数学领域,旨在提升模型在数学问题上的推理和判断能力。
- 作为基准测试集,可用于衡量奖励模型在数学任务上的表现。
- 数据以 JSON 格式存储,便于程序化处理和使用。