在大模型持续外溢到软件工程各环节的当下,网络安全成为最具争议也最具潜力的应用场景之一。近日,Anthropic 发起一项名为 Project Glasswing 的安全计划,试图用“未公开模型 + 多方协作”的方式,将 AI 从潜在攻击工具转变为系统性防御能力的一部分。
与以往单点工具不同,这一项目更像是一场围绕“关键软件基础设施”的 AI 安全实验:不仅涉及模型能力本身,也牵动云厂商、操作系统厂商、金融机构与开源社区的协同机制。
Project Glasswing 的核心,是一款尚未公开的模型 Claude Mythos Preview。不同于通用对话模型,该模型被明确定位为“防御性安全 AI”,重点能力集中在以下几个方向:
Anthropic 表示,在数周测试中,该模型已经发现了数千个高危漏洞,覆盖操作系统、浏览器及其他关键软件组件。这一数据如果属实,意味着 AI 在漏洞发现效率上已经开始超越传统自动化工具(如 fuzzing 与规则扫描),并接近甚至补充人工安全研究员的能力。
关键变化在于:模型不再只是“生成代码”,而是开始理解复杂系统中的隐性风险结构。
Project Glasswing 的另一个值得关注的点,是其参与方的构成。Anthropic 联合了包括:
这种组合背后反映出一个趋势:AI 安全问题已经不再是单一厂商或开源社区可以独立解决的议题,而是横跨算力、系统软件、应用生态与金融系统的“系统性风险”。
例如:
AI 模型在这种多源数据与真实场景中训练和验证,其能力边界也随之扩展。
值得注意的是,Claude Mythos Preview 并不会像常规大模型那样快速开放。Anthropic 采取了明显更保守的策略:
这种策略背后的逻辑并不复杂:在安全领域,模型能力本身具有“双刃剑”属性。一旦漏洞发现能力被滥用,可能直接转化为攻击能力。
因此,Glasswing 本质上是在探索一种“受控能力释放”的路径:
让 AI 先服务于防御方,再逐步评估是否可以更广泛开放。
这与当前开源大模型(如 Llama、Mistral 系列)快速扩散的路径形成鲜明对比,也为“高风险 AI 能力”的治理提供了一个现实样本。
从技术社区视角来看,Project Glasswing 可能带来几个关键变化:
传统安全流程通常依赖:
而大模型的引入,使得“语义理解 + 推理”成为新的核心能力。这意味着未来的安全工具链,可能围绕以下能力重构:
如果将 Claude Mythos 这类模型进一步与执行环境结合,就可以形成具备以下能力的安全 Agent:
这类 Agent 本质上是“AI 驱动的安全工程师”,也是当前 AI 工程(AI Engineering)中最具商业价值的方向之一。
随着攻击者同样可以利用大模型生成 exploit,未来安全格局很可能演化为:
Project Glasswing 可以看作是防御侧的提前布局。
如果说过去两年,大模型主要改变的是“开发效率”,那么 Project Glasswing 所代表的,是 AI 开始进入“系统安全与基础设施”这一更深层领域。
它不只是一个安全项目,更像一次试探:
当模型具备接近人类专家的漏洞发现能力时,整个软件生态是否需要围绕 AI 重新设计安全边界?
90 天后的阶段性成果,或许会给出初步答案。但可以确定的是,AI 在安全领域的角色,已经从“辅助工具”转向“核心参与者”。