allenai/multipref

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

数据集简介

MultiPref 是由 AllenAI 发布的一个文本偏好数据集，主要用于训练和评估偏好学习模型。

该数据集的核心用途是支持基于人类偏好的模型对齐研究，例如训练奖励模型或进行直接偏好优化（DPO）。

适用于自然语言处理领域的研究人员和开发者，用于：
1. 训练更符合人类价值观和偏好的语言模型。
2. 开发或评测奖励模型。
3. 进行对比学习或强化学习从人类反馈中学习的研究。

62 次点击 ∙ 0 人收藏

登录后收藏

0 条回复