作者: Ye Tian, Baolin Peng, Linfeng Song, Lifeng Jin, Dian Yu, Haitao Mi, Dong Yu
提交/修订日期: 2024年4月18日提交,2024年12月10日修订 (v2)
会议/评论: NeurIPS 2024
主题分类: 计算与语言 (cs.CL); 机器学习 (cs.LG)
摘要:
尽管大语言模型(LLMs)在各种任务上展现出令人印象深刻的能力,但在涉及复杂推理和规划的场景中,它们仍然面临困难。近期研究提出了高级提示技术以及利用高质量数据进行微调的必要性,以增强LLMs的推理能力。然而,这些方法本质上受到数据可用性和质量的限制。鉴于此,自我校正和自我学习成为可行的解决方案,它们采用允许LLMs优化其输出并从自我评估的奖励中学习的策略。然而,LLMs在自我优化其响应方面的有效性,尤其是在复杂推理和规划任务中,仍然存疑。
本文提出了用于LLM自改进的AlphaLLM,它将蒙特卡洛树搜索(MCTS)与LLMs相结合,建立了一个自我改进的循环,从而无需额外标注即可增强LLMs的能力。受AlphaGo成功的启发,AlphaLLM解决了将MCTS与LLM结合用于自改进的独特挑战,包括数据稀缺性、语言任务搜索空间的广阔性以及语言任务反馈的主观性。AlphaLLM由提示合成组件、一个为语言任务量身定制的高效MCTS方法,以及一个用于提供精确反馈的三重批判模型组成。我们在数学推理任务上的实验结果表明,AlphaLLM无需额外标注即可显著提升LLMs的性能,展示了LLMs自改进的潜力。