Zephyr：通过直接偏好优化训练对话型开源助手模型

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

# Zephyr: Direct Distillation of LM Alignment

## 论文信息

- **标题**: Zephyr: Direct Distillation of LM Alignment
- **作者**: Lewis Tunstall, Edward Beeching, Nathan Lambert, Nazneen Rajani, Kashif Rasul, Younes Belkada, Shengyi Huang, Leandro von Werra, Clémentine Fourrier, Nathan Habib, Nathan Sarrazin, Omar Sanseviero, Alexander M. Rush, Thomas Wolf
- **提交日期**: 2023年10月25日
- **分类**: 机器学习 (cs.LG)；计算与语言 (cs.CL)

## 摘要

本文旨在生成一个与用户意图对齐的小型语言模型。此前的研究表明，在大模型上应用蒸馏监督微调（dSFT）能显著提升任务准确率，但这些模型未经过对齐，即它们不能很好地响应自然提示。为了蒸馏出对齐这一特性，我们尝试使用了来自 AI 反馈（AIF）的偏好数据。从教师模型排名的输出数据集开始，我们应用了蒸馏直接偏好优化（dDPO）来学习一个意图对齐显著提升的聊天模型。该方法仅需几小时的训练，并且在微调期间无需额外的采样。最终成果 Zephyr-7B 在 7B 参数模型的聊天基准测试中达到了最先进的水平，且无需任何人工标注。特别地，MT-Bench 上的结果表明，Zephyr-7B 超越了 Llama2-Chat-70B，即最佳的开源基于 RLHF 的模型。代码、模型、数据和系统教程已发布在 [此 GitHub 仓库](https://github.com/huggingface/alignment-handbook)。

## 核心贡献

- 提出了结合 AI 反馈数据与蒸馏直接偏好优化（dDPO）的模型对齐方法。
- 训练出的 Zephyr-7B 模型在 7B 参数规模上实现了聊天任务的 SOTA，性能超越 70B 参数的 Llama2-Chat。
- 方法效率高，仅需数小时训练且无需人工标注或微调期间的额外采样。

论文地址：https://arxiv.org/abs/2310.16944

8 次点击 ∙ 0 人收藏

登录后收藏

0 条回复