OpenAI o1 推理模型技术报告

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

OpenAI o1 系统卡

作者: OpenAI 团队 (Aaron Jaech, Adam Kalai, Adam Lerer 等，共 261 位作者)

提交日期: 2024年12月21日

主题/分类: 人工智能 (cs.AI)

摘要:
o1 模型系列通过大规模强化学习进行训练，以利用思维链（chain of thought）进行推理。这些先进的推理能力为提升模型的安全性和鲁棒性提供了新途径。具体而言，我们的模型在响应潜在不安全的提示时，能够通过审慎对齐（deliberative alignment），在上下文中推理我们的安全策略。这使得模型在特定风险基准测试中达到了最先进的性能，这些风险包括生成非法建议、选择刻板印象的回应以及屈服于已知的越狱攻击。训练模型在回答前整合思维链，有潜力释放巨大的益处，同时也可能因智能提升而增加潜在风险。我们的结果强调了构建鲁棒的对齐方法、广泛压力测试其有效性以及维持细致的风险管理协议的必要性。本报告概述了为 OpenAI o1 和 OpenAI o1-mini 模型开展的安全工作，包括安全评估、外部红队测试以及“预备框架”（Preparedness Framework）评估。

论文地址：https://arxiv.org/abs/2412.16720

29 次点击 ∙ 0 人收藏

登录后收藏

0 条回复