Marco-o1：探索开源推理模型的思维链与决策边界

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

Marco-o1: 迈向开放式解决方案的开放推理模型

作者： Yu Zhao, Huifeng Yin, Bo Zeng, Hao Wang, Tianqi Shi, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang

提交/修订日期： 2024年11月21日提交，2024年11月25日修订 (v2)

主题/分类： 计算与语言 (cs.CL)

摘要：

当前，OpenAI 的 o1 模型引发了对大型推理模型 (LRM) 研究的热潮。基于此，Marco-o1 不仅关注具有标准答案的领域（如数学、物理和编程——这些领域非常适合强化学习），而且更加强调开放式的解决方案。我们旨在解决这样一个问题：“o1 模型能否有效地推广到那些缺乏明确标准且奖励难以量化的更广泛领域？” Marco-o1 由思维链 (CoT) 微调、蒙特卡洛树搜索 (MCTS)、反思机制和创新推理策略驱动——专为复杂的现实世界问题解决任务而优化。

论文地址：https://arxiv.org/abs/2411.14405

49 次点击 ∙ 0 人收藏

登录后收藏

0 条回复