作者: Tianhao Wu, Janice Lan, Weizhe Yuan, Jiantao Jiao, Jason Weston, Sainbayar Sukhbaatar
提交日期: 2024年10月14日
摘要:
大型语言模型(LLMs)通常被训练得像人类专家一样回答用户问题或遵循指令。然而,在标准的对齐框架下,它们缺乏在回答前进行显式思考的基本能力。思考对于需要推理和规划的复杂问题至关重要,但它可以应用于任何任务。我们提出了一种训练方法,旨在为现有的LLMs配备这种思考能力,以实现通用的指令遵循,而无需使用额外的人类数据。我们通过一种迭代搜索和优化过程来实现这一点,该过程探索了可能的思维生成空间,使模型能够在没有直接监督的情况下学习如何思考。对于每条指令,思维候选者由一个评判模型仅根据其生成的回答进行评分,然后通过偏好优化进行优化。我们证明,这种方法在AlpacaEval和Arena-Hard基准测试中取得了优越的性能,并且除了更传统的推理与问题解决任务外,在非推理类别(如营销、健康和常识)上也显示出思考带来的增益。
主题分类:
- 计算与语言 (cs.CL)
- 人工智能 (cs.AI)