openbmb/RLPR-Train-Dataset

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

这是一个由 OpenBMB 发布的文本数据集，主要用于强化学习偏好排序（RLPR）的训练。

主要用途

该数据集旨在为强化学习模型提供偏好排序的训练数据，帮助模型学习如何根据人类偏好对不同的文本响应进行排序和优化。

数据类型/模态

模态类型：纯文本（Text）
数据格式：Parquet

规模与统计信息

数据条数：77,687 行
下载量：54 次
点赞数：27 次

使用场景

适用于训练和评估基于强化学习的文本生成模型，特别是在需要对齐人类偏好的任务中，如对话系统、内容创作助手等。

数据集地址：https://huggingface.co/datasets/openbmb/RLPR-Train-Dataset

67 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 12 ms

Developed with Cursor