该数据集由 NVIDIA 发布,主要用于训练奖励模型(Reward Model, RM),是 Nemotron-Cascade 系列模型训练流程的一部分。
用于训练和微调奖励模型,以支持基于人类反馈的强化学习(RLHF)等对齐技术。
适用于: - 研究人员或开发者训练用于对齐大型语言模型的奖励模型。 - 作为 RLHF 流程中构建偏好数据对或评分数据的基础。 - 与 NVIDIA Nemotron-Cascade 系列模型配套使用,进行模型效果优化与对齐。