在Agent执行能力不断增强的背景下,Anthropic正在解决一个关键摩擦点:人类是否还需要逐条审批AI的每一步操作?
最新上线的 Auto Mode(自动模式),给出的答案是——让模型自己判断,但加一层安全裁决。
目前,该功能已在 Team 计划中以研究预览形式提供,并将在数日内扩展至企业版与API。
在Claude Code此前的执行模型中,用户通常面临两种选择:
Auto Mode试图在两者之间建立一个中间层:
由系统自动判断哪些操作安全,并自动执行
启用方式也非常直接:
claude --enable-auto-mode
或在界面中通过 Shift + Tab 切换。
Auto Mode的关键不在Claude本身,而在于一个独立的安全分类器(classifier)。
执行流程如下:
这意味着,Claude不仅在“做事”,还在被一个系统实时“监管”。
Auto Mode的设计目标很明确:
减少人类干预频率,而不是实现完全自治
其优势包括:
但同时,官方也明确指出:
因此推荐使用方式是:
在隔离环境(sandbox)中运行
Auto Mode的推出,本质上是一次执行模型升级:
| 模式 | 特征 |
|---|---|
| 手动审批 | 人类在回路中(Human-in-the-loop) |
| 自动模式 | 人类在策略层(Human-on-the-loop) |
| 完全自治(未来) | 人类仅设目标(Human-out-of-the-loop) |
Anthropic当前处于第二阶段:
人类不再审批每一步,但仍掌控边界。
不同厂商正在用不同方式解决“Agent执行安全”问题:
三者路径不同,但核心问题一致:
如何在“自动化效率”和“系统安全”之间找到平衡点。
Auto Mode把安全决策交给分类器,也带来了新的系统性问题:
误判风险:
安全操作被拦截 → 降低效率
危险操作被放行 → 增加风险
对抗问题:
Prompt是否可能诱导绕过分类器?
可解释性不足:
为什么某个操作被拒绝,开发者是否可控?
换句话说:
安全问题从“人类是否批准”,转变为“分类器是否可靠”。
Auto Mode并不是一个简单的“少点几次按钮”的功能,而是一次更深层的变化:
把“信任”从人类转移给系统,再由系统分配给模型。
这一步看似微小,却是Agent走向大规模自动化的关键门槛。
但现实也很清楚:
在可预见的未来,类似Auto Mode的机制,很可能成为所有Agent系统的“标配中间层”。