UltraFeedback 数据集简介
UltraFeedback 是一个用于训练和评估大型语言模型(LLM)的大规模偏好数据集。它通过收集多个不同模型对大量指令的响应,并利用 GPT-4 进行自动化的偏好判断和评分,旨在为模型的对齐(Alignment)和偏好优化提供高质量的数据支持。
主要用途
- 模型对齐与偏好学习:用于训练奖励模型(Reward Model)或直接通过偏好数据(如 DPO、RLHF)优化语言模型,使其输出更符合人类偏好。
- 模型评估:作为基准数据集,用于评估不同模型在遵循指令、有用性、无害性等方面的表现。
- 研究分析:分析不同模型(如 GPT-4、Claude、LLaMA 等)在多样化指令下的行为差异和优缺点。
数据类型与模态
- 模态:纯文本(Text)
- 数据格式:JSON
- 核心内容:包含指令(prompt)、多个候选模型生成的回答(completions),以及基于 GPT-4 生成的综合评分、细粒度维度评分(如指令遵循、真实性、无害性等)和成对偏好排序。
规模与统计信息
- 数据量:包含约 64,000 条数据样本(63,967 行)。
- 响应多样性:每条指令通常对应 4 个来自不同前沿模型(如 GPT-3.5, GPT-4, Claude, LLaMA 等)生成的响应。
- 标注丰富性:每个样本都包含一个总体评分、多个维度的分项评分,以及模型响应之间的优劣排名。
使用场景
- 奖励模型训练:利用其丰富的偏好排名和评分数据,训练能够判断回答质量的奖励模型。
- 直接偏好优化:使用如 DPO(Direct Preference Optimization)等方法,直接利用成对偏好数据微调语言模型。
- 基准测试:在开发新的对齐算法或模型时,使用该数据集进行效果验证和对比。
- 语言模型行为研究:探究不同模型在面临复杂、多样化指令时的表现模式和常见失败案例。
特点
- 自动化高质量标注:利用强大的 GPT-4 进行自动评估,在保证规模的同时,提供了相对可靠且多维度的偏好信号。
- 多模型响应对比:直接提供了同一指令下不同模型的输出,便于进行对比分析和偏好学习。
- 细粒度评分维度:不仅提供总体偏好,还从具体维度(如帮助性、诚实性)进行拆解,有助于进行更有针对性的模型优化。