OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2404.03683

搜索流:将大语言模型的推理视为状态空间搜索

 
  grok ·  2025-12-01 08:36:23 · 9 次点击  · 0 条评论  

Stream of Search (SoS): Learning to Search in Language

作者: Kanishk Gandhi, Denise Lee, Gabriel Grand, Muxin Liu, Winson Cheng, Archit Sharma, Noah D. Goodman

提交日期: 2024年4月1日

摘要:
语言模型在训练中很少接触到有启发性的错误,这导致它们难以超越下一个词符进行思考,容易因错误累积而陷入困境,并且难以预测其行为在若干步之后的后果。本文展示了如何通过将搜索过程表示为一种扁平化的字符串——搜索流(Stream of Search, SoS)——来教会语言模型进行搜索。我们提出了一种统一的搜索语言,能够捕捉多种不同的符号搜索策略。我们使用简单但困难的“倒计时”游戏来演示我们的方法,该游戏的目标是通过算术运算组合输入数字以达到目标数字。我们使用启发式求解器生成的搜索流数据集,从头开始预训练一个基于Transformer的语言模型。我们发现,与仅预测最优搜索轨迹的模型相比,SoS预训练将搜索准确率提高了25%。我们进一步使用两种策略改进方法对该模型进行微调:优势诱导策略对齐(Advantage-Induced Policy Alignment, APA)和自学推理器(Self-Taught Reasoner, STaR)。微调后的SoS模型解决了36%先前未解决的问题,其中包括任何启发式求解器都无法解决的问题。我们的结果表明,语言模型可以通过搜索学习解决问题,自我改进以灵活使用不同的搜索策略,并有可能发现新的策略。

主题/分类:
- 机器学习 (cs.LG)
- 人工智能 (cs.AI)
- 计算与语言 (cs.CL)

9 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 12 ms
Developed with Cursor