作者: OpenAI 团队 (Aaron Jaech, Adam Kalai, Adam Lerer 等,共 261 位作者)
提交日期: 2024年12月21日
主题/分类: 人工智能 (cs.AI)
摘要:
o1 模型系列通过大规模强化学习进行训练,以利用思维链(chain of thought)进行推理。这些先进的推理能力为提升模型的安全性和鲁棒性提供了新途径。具体而言,我们的模型在响应潜在不安全的提示时,能够通过审慎对齐(deliberative alignment),在上下文中推理我们的安全策略。这使得模型在特定风险基准测试中达到了最先进的性能,这些风险包括生成非法建议、选择刻板印象的回应以及屈服于已知的越狱攻击。训练模型在回答前整合思维链,有潜力释放巨大的益处,同时也可能因智能提升而增加潜在风险。我们的结果强调了构建鲁棒的对齐方法、广泛压力测试其有效性以及维持细致的风险管理协议的必要性。本报告概述了为 OpenAI o1 和 OpenAI o1-mini 模型开展的安全工作,包括安全评估、外部红队测试以及“预备框架”(Preparedness Framework)评估。