OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2410.10630

会思考的大语言模型:在回答前学会思考的机制研究

 
  eaglex ·  2026-01-02 01:35:15 · 13 次点击  · 0 条评论  

Thinking LLMs: General Instruction Following with Thought Generation

作者: Tianhao Wu, Janice Lan, Weizhe Yuan, Jiantao Jiao, Jason Weston, Sainbayar Sukhbaatar

提交日期: 2024年10月14日

摘要:
大型语言模型(LLMs)通常被训练得像人类专家一样回答用户问题或遵循指令。然而,在标准的对齐框架下,它们缺乏在回答前进行显式思考的基本能力。思考对于需要推理和规划的复杂问题至关重要,但它可以应用于任何任务。我们提出了一种训练方法,旨在为现有的LLMs配备这种思考能力,以实现通用的指令遵循,而无需使用额外的人类数据。我们通过一种迭代搜索和优化过程来实现这一点,该过程探索了可能的思维生成空间,使模型能够在没有直接监督的情况下学习如何思考。对于每条指令,思维候选者由一个评判模型仅根据其生成的回答进行评分,然后通过偏好优化进行优化。我们证明,这种方法在AlpacaEval和Arena-Hard基准测试中取得了优越的性能,并且除了更传统的推理与问题解决任务外,在非推理类别(如营销、健康和常识)上也显示出思考带来的增益。

主题分类:
- 计算与语言 (cs.CL)
- 人工智能 (cs.AI)

13 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 19 ms
Developed with Cursor