大模型安全治理再次被推向风口。
近期,推出的 Gemma-4-31B 基础模型被曝出现“越狱版本”(Jailbreak Variant),相关权重已在 上公开流通。该版本被标注为 Gemma-4-31B-JANG_4M-CRACK,在多个安全基准测试中表现出极低的安全约束能力,HarmBench 得分高达 93.7%。
从 AI 技术社区视角看,这一事件的关键不在“是否被破解”,而在于:开源模型的安全控制机制,正在快速被逆向与剥离。
当前主流大模型的安全能力,本质依赖于后训练阶段:
这些机制的目标是限制模型生成有害内容。
但 Gemma-4-31B 越狱版本表明,这些“安全层”具有明显的可逆性:
换句话说,能力与约束是解耦的。
从工程角度分析,这类破解通常依赖以下路径:
通过构建特定数据集:
部分团队会:
通过修改推理阶段策略:
这些方法并不需要完全重训模型,因此速度极快。
值得注意的是,该版本模型已支持:
这意味着:
结合此前 Apple 生态对本地 AI 的支持(如 MLX、Metal 加速),本地“高能力模型”的门槛正在迅速下降。
这一事件背后的真正冲击,在于安全模型的治理方式正在发生变化:
过去:
现在:
同一模型既可以用于:
也可以用于:
这使得攻防能力同时“民主化”。
当模型不可控时,安全重点将转向:
对比近期 推出的 Mythos 模型与 Glasswing 项目,可以看到两种不同路径:
这反映出一个更深层分歧:
AI 安全应依赖“模型内约束”,还是“系统外治理”?
Gemma 越狱事件正在用现实案例证明:单纯依赖模型内安全,难以长期成立。
未来 AI 系统设计可能需要假设:
这将推动工程实践变化:
例如:
特别是在 Agent 系统中:
记录:
以便事后追溯。
推出的 Gemma 系列,本意是推动开放生态与开发者创新。但越狱版本的迅速出现,也揭示了一个现实:
对 AI 技术社区而言,这不是简单的“破解事件”,而是一个阶段性信号:
大模型正在进入一个“能力完全释放”的阶段,而安全治理必须从“控制模型”,转向“控制系统”。
在这个新阶段里,真正的竞争,不只是模型性能,而是谁能在开放与安全之间找到可持续的工程解法。