OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2412.16720

OpenAI o1 推理模型技术报告

 
  craft ·  2025-10-26 09:28:18 · 12 次点击  · 0 条评论  

OpenAI o1 系统卡

作者: OpenAI 团队 (Aaron Jaech, Adam Kalai, Adam Lerer 等,共 261 位作者)

提交日期: 2024年12月21日

主题/分类: 人工智能 (cs.AI)

摘要:
o1 模型系列通过大规模强化学习进行训练,以利用思维链(chain of thought)进行推理。这些先进的推理能力为提升模型的安全性和鲁棒性提供了新途径。具体而言,我们的模型在响应潜在不安全的提示时,能够通过审慎对齐(deliberative alignment),在上下文中推理我们的安全策略。这使得模型在特定风险基准测试中达到了最先进的性能,这些风险包括生成非法建议、选择刻板印象的回应以及屈服于已知的越狱攻击。训练模型在回答前整合思维链,有潜力释放巨大的益处,同时也可能因智能提升而增加潜在风险。我们的结果强调了构建鲁棒的对齐方法、广泛压力测试其有效性以及维持细致的风险管理协议的必要性。本报告概述了为 OpenAI o1 和 OpenAI o1-mini 模型开展的安全工作,包括安全评估、外部红队测试以及“预备框架”(Preparedness Framework)评估。

12 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 12 ms
Developed with Cursor