OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
说明
  • 条目同步来自 Hugging Face 主要方便针对性讨论。
OA0  ›  数据集  ›  OpenBMB

openbmb/UltraFeedback

 
  OpenBMB  ·  2023-12-29 14:11:19  ·  19 次点击  ·  0 条评论  

UltraFeedback 数据集简介

UltraFeedback 是一个用于训练和评估大型语言模型(LLM)的大规模偏好数据集。它通过收集多个不同模型对大量指令的响应,并利用 GPT-4 进行自动化的偏好判断和评分,旨在为模型的对齐(Alignment)和偏好优化提供高质量的数据支持。

主要用途

  • 模型对齐与偏好学习:用于训练奖励模型(Reward Model)或直接通过偏好数据(如 DPO、RLHF)优化语言模型,使其输出更符合人类偏好。
  • 模型评估:作为基准数据集,用于评估不同模型在遵循指令、有用性、无害性等方面的表现。
  • 研究分析:分析不同模型(如 GPT-4、Claude、LLaMA 等)在多样化指令下的行为差异和优缺点。

数据类型与模态

  • 模态:纯文本(Text)
  • 数据格式:JSON
  • 核心内容:包含指令(prompt)、多个候选模型生成的回答(completions),以及基于 GPT-4 生成的综合评分、细粒度维度评分(如指令遵循、真实性、无害性等)和成对偏好排序。

规模与统计信息

  • 数据量:包含约 64,000 条数据样本(63,967 行)。
  • 响应多样性:每条指令通常对应 4 个来自不同前沿模型(如 GPT-3.5, GPT-4, Claude, LLaMA 等)生成的响应。
  • 标注丰富性:每个样本都包含一个总体评分、多个维度的分项评分,以及模型响应之间的优劣排名。

使用场景

  1. 奖励模型训练:利用其丰富的偏好排名和评分数据,训练能够判断回答质量的奖励模型。
  2. 直接偏好优化:使用如 DPO(Direct Preference Optimization)等方法,直接利用成对偏好数据微调语言模型。
  3. 基准测试:在开发新的对齐算法或模型时,使用该数据集进行效果验证和对比。
  4. 语言模型行为研究:探究不同模型在面临复杂、多样化指令时的表现模式和常见失败案例。

特点

  • 自动化高质量标注:利用强大的 GPT-4 进行自动评估,在保证规模的同时,提供了相对可靠且多维度的偏好信号。
  • 多模型响应对比:直接提供了同一指令下不同模型的输出,便于进行对比分析和偏好学习。
  • 细粒度评分维度:不仅提供总体偏好,还从具体维度(如帮助性、诚实性)进行拆解,有助于进行更有针对性的模型优化。
19 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 13 ms
Developed with Cursor