Quiet-STaR：大语言模型在思考时学习推理

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

Quiet-STaR: 语言模型可以学会在“说话”前思考

作者: Eric Zelikman, Georges Harik, Yijia Shao, Varuna Jayasiri, Nick Haber, Noah D. Goodman

提交/修订日期: 2024年3月14日提交，2024年3月18日修订 (v2)

摘要:
人们在写作和交谈时，有时会停下来思考。尽管专注于推理的研究通常将推理框定为回答问题或完成智能体任务的方法，但推理几乎隐含在所有书面文本中。例如，证明中未明确陈述的步骤，或对话背后隐含的心理理论。在自教推理器 (Self-Taught Reasoner, STaR, Zelikman et al. 2022) 中，模型通过从问答的少量示例中推断出基本原理，并学习那些能得出正确答案的原理，从而学会有用的思考。这是一个高度受限的场景——理想情况下，语言模型应该能够学会从任意文本中推断出未明确陈述的基本原理。本文提出了 Quiet-STaR，这是 STaR 的泛化，其中语言模型学习在每个词元处生成基本原理来解释后续文本，从而改进其预测。我们解决了几个关键挑战，包括：1) 生成续写的计算成本；2) 语言模型最初不知道如何生成或使用内部思考；3) 需要预测超出单个下一个词元的内容。为了解决这些问题，我们提出了一种词元级并行采样算法，使用可学习的词元来指示思考的开始和结束，以及一种扩展的教师强制技术。令人鼓舞的是，生成的基本原理对预测困难的词元帮助尤为显著，并提高了语言模型直接回答困难问题的能力。具体而言，在使用 Quiet-STaR 在互联网文本语料库上对语言模型进行持续预训练后，我们发现其在 GSM8K (5.9% → 10.9%) 和 CommonsenseQA (36.3% → 47.2%) 上的零样本性能得到提升，并观察到自然文本中困难词元的困惑度有所改善。关键的是，这些改进无需在这些任务上进行微调。Quiet-STaR 标志着语言模型朝着更通用、可扩展的推理学习能力迈出了一步。

主题/分类:
- 主要: 计算与语言 (cs.CL)
- 相关: 人工智能 (cs.AI); 机器学习 (cs.LG)

论文地址：https://arxiv.org/abs/2403.09629

54 次点击 ∙ 0 人收藏

登录后收藏

0 条回复