Anthropic 为 Claude Code 引入 Auto Mode,使模型在执行过程中可自主决策工具调用权限,并通过实时安全分类器进行拦截与放行。其本质是构建一个“在线权限判定层”,在不完全信任模型的前提下提升自动化能力,实现从人工审批到受控执行的过渡。
工具型 Agent(代码 / DevOps / 数据)长期受限于三者冲突:
安全性 vs 自动化 vs 执行效率
传统两种模式均不可用:
Auto Mode 的目标是构建中间态:
在不放弃安全的前提下,允许长链自动执行
整体执行路径:
User → LLM(生成 action)→ Tool Call → Safety Classifier → {执行 / 拒绝 / 人工确认}
关键变化:
权限判断从“人”转移为“系统内实时决策”
每个 tool call 在执行前都会被分类器分析,评估维度包括:
系统将操作划分为三类:
当操作被拒绝时:
拒绝 → LLM 重规划 → 新路径执行
意义:
Agent 不再失败,而是尝试寻找安全替代路径
若模型持续尝试高风险操作:
多次失败 → 强制人工介入
形成策略闭环:
自动执行优先 → 风险收敛 → 人类兜底
执行模式从:
Step → Human → Step → Human
转为:
多步自动执行 → 局部阻断 → 继续执行
直接带来的能力提升:
引入安全层的代价:
但系统级收益是:
减少人类等待 → 总体执行效率更高
Auto Mode 明确不是完全安全,原因包括:
本质问题:
当前安全机制是语义判断,而非强约束执行
趋势演进:
静态权限 → 动态权限 → 可验证执行(sandbox / capability)
Auto Mode 可以抽象为:
LLM = 用户态程序
Tool = 系统调用
Auto Mode = 权限控制内核
它解决的核心问题不是“模型更聪明”,而是:
模型是否被允许安全地执行操作
Auto Mode 的关键价值在于:
在工程层面首次实现“可控的 Agent 自主执行机制”
👉 这不是权限优化,而是 AI 从“建议系统”迈向“执行系统”的关键基础设施。