OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2411.14405

Marco-o1:探索开源推理模型的思维链与决策边界

 
  backup ·  2025-12-23 16:25:32 · 11 次点击  · 0 条评论  

Marco-o1: 迈向开放式解决方案的开放推理模型

作者: Yu Zhao, Huifeng Yin, Bo Zeng, Hao Wang, Tianqi Shi, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang

提交/修订日期: 2024年11月21日提交,2024年11月25日修订 (v2)

主题/分类: 计算与语言 (cs.CL)

摘要:

当前,OpenAI 的 o1 模型引发了对大型推理模型 (LRM) 研究的热潮。基于此,Marco-o1 不仅关注具有标准答案的领域(如数学、物理和编程——这些领域非常适合强化学习),而且更加强调开放式的解决方案。我们旨在解决这样一个问题:“o1 模型能否有效地推广到那些缺乏明确标准且奖励难以量化的更广泛领域?” Marco-o1 由思维链 (CoT) 微调、蒙特卡洛树搜索 (MCTS)、反思机制和创新推理策略驱动——专为复杂的现实世界问题解决任务而优化。

11 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 13 ms
Developed with Cursor