作者: Eric Zelikman, Georges Harik, Yijia Shao, Varuna Jayasiri, Nick Haber, Noah D. Goodman
提交日期: 2024年3月14日
摘要:
人们在写作和交谈时,有时会停下来思考。尽管专注于推理的研究通常将推理框定为回答问题或完成智能任务的方法,但推理几乎隐含在所有书面文本中。例如,证明中未明确陈述的步骤,或对话背后隐含的心理理论。在自教推理器(STaR,Zelikman 等人,2022)中,有用的思考是通过从问答的少量示例中推断出基本原理,并学习那些能得出正确答案的原理来习得的。这是一个高度受限的场景——理想情况下,语言模型应该能够学习推断任意文本中未明确陈述的基本原理。
本文提出了 Quiet-STaR,这是 STaR 的一种泛化方法,其中语言模型学习在每个词元处生成基本原理来解释未来的文本,从而改进其预测。我们解决了几个关键挑战,包括:1)生成延续的计算成本;2)语言模型最初不知道如何生成或使用内部思考;3)需要预测超出单个下一个词元的内容。为了解决这些问题,我们提出了一种词元级并行采样算法,使用可学习的标记来指示思考的开始和结束,以及一种扩展的教师强制技术。
令人鼓舞的是,生成的基本原理对难以预测的词元帮助尤为显著,并提高了语言模型直接回答困难问题的能力。具体而言,在使用 Quiet-STaR 在互联网文本语料库上对语言模型进行持续预训练后,我们在 GSM8K(5.9% → 10.9%)和 CommonsenseQA(36.3% → 47.2%)上发现了零样本性能提升,并观察到自然文本中困难词元的困惑度有所改善。至关重要的是,这些改进无需在这些任务上进行微调。Quiet-STaR 标志着朝着语言模型能够以更通用和可扩展的方式学习推理迈出了一步。
主题/分类:
- 计算与语言 (cs.CL)
- 人工智能 (cs.AI)
- 机器学习 (cs.LG)