2026 年 2 月,人工智能公司 Anthropic 在其官方博客发布了题为 《Detecting and preventing distillation attacks》 的报道,揭露了针对其旗舰大语言模型 Claude 的 大规模蒸馏攻击 行动,并详细分析了这种行为的性质、风险与防范措施。
蒸馏(distillation)本身是一种常见的 AI 训练方法——通过使用强大模型(教师模型)的输出,用来训练更小、更高效的模型。然而 蒸馏攻击 则指的是未经授权利用他人模型输出数据来训练自己的系统,这违反了服务条款,也可能带来安全风险。
Anthropic 指出,这类攻击并不等同于正常的蒸馏训练,而是在未经许可、跨越地域访问限制的情况下大量提取 Claude 的能力输出,从而“劫取”其智能能力用于他人模型训练。
Anthropic 的调查发现,至少有三家竞争 AI 实验室被指控发起了规模庞大的蒸馏攻击:
这些行为不仅违反了 Anthropic 的使用条款,也规避了地域访问限制机制。
Anthropic 进一步表示,敌对实验室通过代理服务和复杂的账户网络来隐藏行为,使得检测和阻断更加困难。
在 Anthropic 看来,这类未经授权的蒸馏攻击带来的问题远不止侵权:
Anthropic 甚至指出,如果未经防护的能力被引入军事实力、情报系统或监控架构中,可能产生国家安全风险。
针对这样的蒸馏行为,Anthropic 表示已经启动一系列应对措施:
同时,Anthropic 呼吁 AI 行业、云服务提供商和政策制定者之间建立更紧密的合作,共同制定规范与防护体系,以应对这种日益复杂的威胁。
这次报告并非单一事件。类似的蒸馏攻击指控也曾涉及其他大型模型提供者,表明当前生成式 AI 生态中围绕训练数据使用、模型输出滥用与合法性界限的争论正快速升温。
在全球 AI 技术竞争尤其激烈的今日,这一事件不仅仅是技术问题,更涉及 知识产权保护、产业竞争伦理、国际政策与安全规范 等多层面的挑战。
Anthropic 发布的《检测与防止蒸馏攻击》报告:
随着大模型的核心价值愈发明显,这类围绕模型输出权利、数据使用边界的讨论很可能成为未来 AI 发展的重要议题。