# Zephyr: Direct Distillation of LM Alignment
## 论文信息
- **标题**: Zephyr: Direct Distillation of LM Alignment
- **作者**: Lewis Tunstall, Edward Beeching, Nathan Lambert, Nazneen Rajani, Kashif Rasul, Younes Belkada, Shengyi Huang, Leandro von Werra, Clémentine Fourrier, Nathan Habib, Nathan Sarrazin, Omar Sanseviero, Alexander M. Rush, Thomas Wolf
- **提交日期**: 2023年10月25日
- **分类**: 机器学习 (cs.LG);计算与语言 (cs.CL)
## 摘要
本文旨在生成一个与用户意图对齐的小型语言模型。此前的研究表明,在大模型上应用蒸馏监督微调(dSFT)能显著提升任务准确率,但这些模型未经过对齐,即它们不能很好地响应自然提示。为了蒸馏出对齐这一特性,我们尝试使用了来自 AI 反馈(AIF)的偏好数据。从教师模型排名的输出数据集开始,我们应用了蒸馏直接偏好优化(dDPO)来学习一个意图对齐显著提升的聊天模型。该方法仅需几小时的训练,并且在微调期间无需额外的采样。最终成果 Zephyr-7B 在 7B 参数模型的聊天基准测试中达到了最先进的水平,且无需任何人工标注。特别地,MT-Bench 上的结果表明,Zephyr-7B 超越了 Llama2-Chat-70B,即最佳的开源基于 RLHF 的模型。代码、模型、数据和系统教程已发布在 [此 GitHub 仓库](https://github.com/huggingface/alignment-handbook)。
## 核心贡献
- 提出了结合 AI 反馈数据与蒸馏直接偏好优化(dDPO)的模型对齐方法。
- 训练出的 Zephyr-7B 模型在 7B 参数规模上实现了聊天任务的 SOTA,性能超越 70B 参数的 Llama2-Chat。
- 方法效率高,仅需数小时训练且无需人工标注或微调期间的额外采样。