openbmb/UltraFeedback

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

UltraFeedback 数据集简介

UltraFeedback 是一个用于训练和评估大型语言模型（LLM）的大规模偏好数据集。它通过收集多个不同模型对大量指令的响应，并利用 GPT-4 进行自动化的偏好判断和评分，旨在为模型的对齐（Alignment）和偏好优化提供高质量的数据支持。

主要用途

模型对齐与偏好学习：用于训练奖励模型（Reward Model）或直接通过偏好数据（如 DPO、RLHF）优化语言模型，使其输出更符合人类偏好。
模型评估：作为基准数据集，用于评估不同模型在遵循指令、有用性、无害性等方面的表现。
研究分析：分析不同模型（如 GPT-4、Claude、LLaMA 等）在多样化指令下的行为差异和优缺点。

数据类型与模态

模态：纯文本（Text）
数据格式：JSON
核心内容：包含指令（prompt）、多个候选模型生成的回答（completions），以及基于 GPT-4 生成的综合评分、细粒度维度评分（如指令遵循、真实性、无害性等）和成对偏好排序。

规模与统计信息

数据量：包含约 64,000 条数据样本（63,967 行）。
响应多样性：每条指令通常对应 4 个来自不同前沿模型（如 GPT-3.5, GPT-4, Claude, LLaMA 等）生成的响应。
标注丰富性：每个样本都包含一个总体评分、多个维度的分项评分，以及模型响应之间的优劣排名。

使用场景

奖励模型训练：利用其丰富的偏好排名和评分数据，训练能够判断回答质量的奖励模型。
直接偏好优化：使用如 DPO（Direct Preference Optimization）等方法，直接利用成对偏好数据微调语言模型。
基准测试：在开发新的对齐算法或模型时，使用该数据集进行效果验证和对比。
语言模型行为研究：探究不同模型在面临复杂、多样化指令时的表现模式和常见失败案例。

特点

自动化高质量标注：利用强大的 GPT-4 进行自动评估，在保证规模的同时，提供了相对可靠且多维度的偏好信号。
多模型响应对比：直接提供了同一指令下不同模型的输出，便于进行对比分析和偏好学习。
细粒度评分维度：不仅提供总体偏好，还从具体维度（如帮助性、诚实性）进行拆解，有助于进行更有针对性的模型优化。

数据集地址：https://huggingface.co/datasets/openbmb/UltraFeedback

35 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 11 ms

Developed with Cursor