nvidia/Nemotron-Cascade-RM-Training

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

数据集简介

该数据集由 NVIDIA 发布，主要用于训练奖励模型（Reward Model, RM），是 Nemotron-Cascade 系列模型训练流程的一部分。

用于训练和微调奖励模型，以支持基于人类反馈的强化学习（RLHF）等对齐技术。

适用于：
- 研究人员或开发者训练用于对齐大型语言模型的奖励模型。
- 作为 RLHF 流程中构建偏好数据对或评分数据的基础。
- 与 NVIDIA Nemotron-Cascade 系列模型配套使用，进行模型效果优化与对齐。

45 次点击 ∙ 0 人收藏

登录后收藏

0 条回复