作者: Yu Zhao, Huifeng Yin, Bo Zeng, Hao Wang, Tianqi Shi, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang
提交/修订日期: 2024年11月21日提交,2024年11月25日修订 (v2)
主题/分类: 计算与语言 (cs.CL)
摘要:
当前,OpenAI 的 o1 模型引发了对大型推理模型 (LRM) 研究的热潮。基于此,Marco-o1 不仅关注具有标准答案的领域(如数学、物理和编程——这些领域非常适合强化学习),而且更加强调开放式的解决方案。我们旨在解决这样一个问题:“o1 模型能否有效地推广到那些缺乏明确标准且奖励难以量化的更广泛领域?” Marco-o1 由思维链 (CoT) 微调、蒙特卡洛树搜索 (MCTS)、反思机制和创新推理策略驱动——专为复杂的现实世界问题解决任务而优化。