会思考的大语言模型：在回答前学会思考的机制研究

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

Thinking LLMs: General Instruction Following with Thought Generation

作者： Tianhao Wu, Janice Lan, Weizhe Yuan, Jiantao Jiao, Jason Weston, Sainbayar Sukhbaatar

提交日期： 2024年10月14日

摘要：
大型语言模型（LLMs）通常被训练得像人类专家一样回答用户问题或遵循指令。然而，在标准的对齐框架下，它们缺乏在回答前进行显式思考的基本能力。思考对于需要推理和规划的复杂问题至关重要，但它可以应用于任何任务。我们提出了一种训练方法，旨在为现有的LLMs配备这种思考能力，以实现通用的指令遵循，而无需使用额外的人类数据。我们通过一种迭代搜索和优化过程来实现这一点，该过程探索了可能的思维生成空间，使模型能够在没有直接监督的情况下学习如何思考。对于每条指令，思维候选者由一个评判模型仅根据其生成的回答进行评分，然后通过偏好优化进行优化。我们证明，这种方法在AlpacaEval和Arena-Hard基准测试中取得了优越的性能，并且除了更传统的推理与问题解决任务外，在非推理类别（如营销、健康和常识）上也显示出思考带来的增益。

主题分类：
- 计算与语言 (cs.CL)
- 人工智能 (cs.AI)

论文地址：https://arxiv.org/abs/2410.10630

27 次点击 ∙ 0 人收藏

登录后收藏

0 条回复