搜索流：将大语言模型的推理视为状态空间搜索

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

Stream of Search (SoS): Learning to Search in Language

作者： Kanishk Gandhi, Denise Lee, Gabriel Grand, Muxin Liu, Winson Cheng, Archit Sharma, Noah D. Goodman

提交日期： 2024年4月1日

摘要：
语言模型在训练中很少接触到有启发性的错误，这导致它们难以超越下一个词符进行思考，容易因错误累积而陷入困境，并且难以预测其行为在若干步之后的后果。本文展示了如何通过将搜索过程表示为一种扁平化的字符串——搜索流（Stream of Search, SoS）——来教会语言模型进行搜索。我们提出了一种统一的搜索语言，能够捕捉多种不同的符号搜索策略。我们使用简单但困难的“倒计时”游戏来演示我们的方法，该游戏的目标是通过算术运算组合输入数字以达到目标数字。我们使用启发式求解器生成的搜索流数据集，从头开始预训练一个基于Transformer的语言模型。我们发现，与仅预测最优搜索轨迹的模型相比，SoS预训练将搜索准确率提高了25%。我们进一步使用两种策略改进方法对该模型进行微调：优势诱导策略对齐（Advantage-Induced Policy Alignment, APA）和自学推理器（Self-Taught Reasoner, STaR）。微调后的SoS模型解决了36%先前未解决的问题，其中包括任何启发式求解器都无法解决的问题。我们的结果表明，语言模型可以通过搜索学习解决问题，自我改进以灵活使用不同的搜索策略，并有可能发现新的策略。

主题/分类：
- 机器学习 (cs.LG)
- 人工智能 (cs.AI)
- 计算与语言 (cs.CL)

论文地址：https://arxiv.org/abs/2404.03683

46 次点击 ∙ 0 人收藏

登录后收藏

0 条回复