OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2210.15097

对比解码:通过大小模型对比显著减少推理幻觉

 
  eighty ·  2025-12-13 04:57:28 · 10 次点击  · 0 条评论  

对比解码:将开放式文本生成视为优化问题

标题: Contrastive Decoding: Open-ended Text Generation as Optimization

作者: Xiang Lisa Li, Ari Holtzman, Daniel Fried, Percy Liang, Jason Eisner, Tatsunori Hashimoto, Luke Zettlemoyer, Mike Lewis

提交日期: 2022年10月27日 (v1),最后修订于2023年7月10日 (v2)

摘要:
对于一个语言模型(LM),最大概率是开放式文本生成的一个较差解码目标,因为它会产生简短且重复的文本。另一方面,采样方法又常常产生不连贯、偏离原始主题的文本。我们提出了对比解码(Contrastive Decoding, CD),这是一种可靠的解码方法,它在满足一个合理性约束的条件下优化一个对比目标。该对比目标返回一个大语言模型(称为专家,例如 OPT-13B)与一个小语言模型(称为业余者,例如 OPT-125M)下的似然差值,而约束条件确保输出是合理的。CD 的灵感来源于这样一个事实:大语言模型中的失败(例如重复、不连贯)在小语言模型中更为普遍,而这种差异指示了哪些文本应该被优先选择。CD 无需任何额外训练,并且能比单独从大语言模型解码产生更高质量的文本。它适用于不同的模型规模(如 OPT-13B 和 GPT2-1.5B),并在维基百科、新闻和故事领域的自动和人工评估中,显著优于四种强大的解码算法(例如,nucleus sampling, top-k sampling)。

主题/分类:
- 主要学科:计算与语言 (cs.CL)
- 相关学科:人工智能 (cs.AI);机器学习 (cs.LG)

备注: ACL 2023 主会议长论文。

10 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 77 ms
Developed with Cursor