一项来自英国 AI 安全研究机构的最新评测,为大模型的“网络安全能力”划下了新的刻度线:OpenAI 的 GPT-5.5,在多项攻防测试中已与此前被高度警惕的 Mythos 模型处于同一水平。
这不仅削弱了“单一模型危险性”的叙事,也揭示了一个更重要的趋势:网络攻防能力正在成为通用大模型的“默认能力”,而非特例。
此前,由Anthropic推出的 Mythos 预览模型,因其在网络安全领域的潜在能力被广泛讨论,甚至被作为“高风险 AI”的代表进行限制发布。
但最新评测显示,GPT-5.5 在同类任务中的表现几乎持平,意味着:
Mythos 并不是“异常强”,而是整个大模型能力曲线已经整体上移。
这对 AI 安全、模型发布策略以及工程实践,都是一次根本性的冲击。
GPT-5.5 在专家级网络安全任务中的通过率达到约 71%,与 Mythos 持平甚至略优
在模拟企业数据渗透测试中,两者均实现“此前未出现过的成功水平”
评测机构认为,这种能力提升属于“通用模型进步”,而非单一模型突破
模型发布策略开始转向“受控开放”,而非简单封禁
本次评估采用了更接近真实攻防环境的测试体系:
覆盖 95 项任务
包括漏洞利用、权限提升、横向移动等典型攻击路径
GPT-5.5 在“专家级”任务中通过率约为 71.4%
Mythos 预览模型为约 68.6%
这一结果意味着,大模型已经具备接近专业安全研究员的部分能力。
模拟真实公司网络环境
目标是提取敏感数据
GPT-5.5 成功 3/10,Mythos 为 2/10
虽然成功率仍不算高,但这是首次出现模型在复杂企业网络中“端到端攻击成功”的案例。
这一趋势并不偶然,而是模型能力演进的自然结果:
随着模型在编程任务中的表现提升:
能理解复杂系统架构
能生成 exploit 代码
能自动调试与修复
这些能力天然可迁移到安全领域。
网络攻击本质上是一个多步骤推理过程:
信息收集
漏洞识别
攻击路径规划
执行与反馈
GPT-5.5 在 chain-of-thought 与规划能力上的提升,使其可以完成更复杂的攻击流程。
现代大模型可以:
调用扫描工具
分析日志
自动执行命令
这使其从“建议攻击”转向“执行攻击”。
面对 Mythos 曾引发的安全讨论,萨姆·奥尔特曼公开批评了所谓的“恐慌营销”。
其核心观点是:
单一模型的“危险性”被放大
实际上是整个技术代际的进步
过度渲染风险可能误导监管与公众
这一表态背后,是 AI 公司在“能力展示”与“风险控制”之间的微妙平衡:
过度强调能力 → 引发监管压力
过度强调风险 → 限制产品落地
面对不断增强的攻防能力,模型发布策略正在发生变化:
OpenAI 提出的新机制包括:
限定用户群体(如安全研究人员)
审核访问权限
监控使用行为
例如即将推出的 GPT-5.5-Cyber,将以受控方式提供。
未来模型可能按能力拆分:
通用模型(限制敏感能力)
专业模型(仅限特定场景)
API 调用日志记录
异常行为检测
自动化风险拦截
这一变化对开发者和安全从业者意味着:
需要在系统中引入更强的安全约束
对 prompt 与 tool 调用进行限制
构建“安全中间层”(safety middleware)
AI 将成为攻防双方的工具
自动化渗透测试成为可能
防御系统需要引入 AI 对抗 AI
需要重新评估“AI 内部使用风险”
防止模型被滥用于内部系统攻击
建立 AI 使用审计机制
当前局面正在逼近一个新的平衡点:
攻击能力:快速提升
防御能力:尚未完全匹配
监管体系:仍在演进
这意味着,未来的安全体系可能演变为:
AI 攻击者 vs AI 防御者
自动化攻防对抗系统
实时策略更新与博弈
GPT-5.5 与 Mythos 的对比,实际上传递了一个更深层的信号:
网络攻防能力,正在从“敏感特性”变成“通用能力”。
这将迫使整个行业重新思考:
如何定义模型能力边界
如何设计可控的 Agent 系统
如何在开放与安全之间找到平衡
对于 AI 技术社区而言,这不仅是一次模型对比,更是一次范式转变的开始:当模型具备行动能力,安全不再是附加项,而是系统设计的核心。