作者: DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Peiyi Wang, Qihao Zhu, Runxin Xu, Ruoyu Zhang, Shirong Ma, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z.F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jiawei Wang, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, J.L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R.J. Chen, R.L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S.S. Li 等 (共200位作者)
摘要:
通用推理是人工智能领域一个长期且艰巨的挑战。以大型语言模型(LLMs)和思维链提示为代表的近期突破,在基础推理任务上取得了相当大的成功。然而,这种成功在很大程度上依赖于大量的人工标注演示,并且模型的能力对于更复杂的问题仍然不足。本文表明,大语言模型的推理能力可以通过纯粹的强化学习(RL)来激励,从而无需人工标注的推理轨迹。所提出的强化学习框架促进了高级推理模式的出现,例如自我反思、验证和动态策略适应。因此,训练后的模型在数学、编程竞赛和STEM领域等可验证任务上取得了卓越的性能,超越了通过传统监督学习在人类演示上训练的对应模型。此外,这些大规模模型所展现出的涌现推理模式可以被系统地利用来指导和增强较小模型的推理能力。
主题/分类:
- 主要主题: 计算与语言 (cs.CL)
- 其他主题: 人工智能 (cs.AI); 机器学习 (cs.LG)
提交/修订历史:
- 提交于 2025年1月22日 (v1)
- 最后修订于 2026年1月4日 (v2)
期刊信息:
- 发表于: Nature volume 645, pages 633-638 (2025)
- DOI: 10.1038/s41586-025-09422-z