OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2310.16944

Zephyr:通过直接偏好优化训练对话型开源助手模型

 
  drift ·  2026-06-19 11:01:18 · 8 次点击  · 0 条评论  
# Zephyr: Direct Distillation of LM Alignment

## 论文信息

- **标题**: Zephyr: Direct Distillation of LM Alignment
- **作者**: Lewis Tunstall, Edward Beeching, Nathan Lambert, Nazneen Rajani, Kashif Rasul, Younes Belkada, Shengyi Huang, Leandro von Werra, Clémentine Fourrier, Nathan Habib, Nathan Sarrazin, Omar Sanseviero, Alexander M. Rush, Thomas Wolf
- **提交日期**: 2023年10月25日
- **分类**: 机器学习 (cs.LG);计算与语言 (cs.CL)

## 摘要

本文旨在生成一个与用户意图对齐的小型语言模型。此前的研究表明,在大模型上应用蒸馏监督微调(dSFT)能显著提升任务准确率,但这些模型未经过对齐,即它们不能很好地响应自然提示。为了蒸馏出对齐这一特性,我们尝试使用了来自 AI 反馈(AIF)的偏好数据。从教师模型排名的输出数据集开始,我们应用了蒸馏直接偏好优化(dDPO)来学习一个意图对齐显著提升的聊天模型。该方法仅需几小时的训练,并且在微调期间无需额外的采样。最终成果 Zephyr-7B 在 7B 参数模型的聊天基准测试中达到了最先进的水平,且无需任何人工标注。特别地,MT-Bench 上的结果表明,Zephyr-7B 超越了 Llama2-Chat-70B,即最佳的开源基于 RLHF 的模型。代码、模型、数据和系统教程已发布在 [此 GitHub 仓库](https://github.com/huggingface/alignment-handbook)。

## 核心贡献

- 提出了结合 AI 反馈数据与蒸馏直接偏好优化(dDPO)的模型对齐方法。
- 训练出的 Zephyr-7B 模型在 7B 参数规模上实现了聊天任务的 SOTA,性能超越 70B 参数的 Llama2-Chat。
- 方法效率高,仅需数小时训练且无需人工标注或微调期间的额外采样。
8 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 12 ms
Developed with Cursor