AI 编码工具正在跨越一个关键门槛——从“生成代码”走向“直接操作环境”。最新进展显示,macOS 版 Codex App 已支持 Computer Use 功能,使模型能够在本地计算机上执行实际操作。这一能力意味着,AI 不再局限于编辑器或终端中的辅助角色,而是具备了直接参与系统交互与任务执行的能力。
在 AI 工程语境下,这标志着 Agent 从“工具调用”迈向“环境操控”,开发与自动化边界进一步被重构。
传统 AI 系统主要依赖 API 作为执行接口,例如通过 POST /v1/... 调用服务完成任务。但 Computer Use 的核心思路不同,它绕过 API 限制,直接在操作系统层面执行动作,包括:
这种模式,本质上是将 AI 从“函数调用者”转变为“用户行为模拟者”。
要实现对计算机的有效操作,模型需要具备完整的 Agent 执行链路:
通过屏幕内容(UI 元素、文本、窗口结构)获取当前状态,通常依赖视觉模型或 UI 解析机制。
根据任务目标与当前界面,规划下一步操作,例如点击按钮、输入命令或切换应用。
将决策转化为具体操作,如鼠标点击、快捷键触发或文本输入。
读取操作后的界面变化,判断是否达成目标,必要时调整策略。
这一循环,使 AI 能够处理非结构化环境中的复杂任务,而不仅仅是预定义接口调用。
Computer Use 在 macOS 上的落地,使 Codex 可以覆盖更多真实开发场景:
AI 可以修改代码后自动打开浏览器、刷新页面、检查 UI 变化,实现“写代码 + 验证效果”的闭环。
在 IDE、终端、浏览器之间切换,例如:
npm run build) 无需依赖测试 API,直接模拟用户操作完成端到端测试(E2E)。
对于未开放接口的软件(如部分桌面工具或内部系统),AI 可以通过界面操作完成任务。
Computer Use 与传统 RPA(Robotic Process Automation)有相似之处,但核心差异在于:
这使得 Codex 在处理复杂、多变界面时具备更强的泛化能力,例如:
换言之,这是“智能化 RPA”的一次落地尝试。
Computer Use 的引入,正在改变 AI 工程的设计方式:
开发者不再必须为所有功能提供 API,AI 可以直接通过 UI 层完成操作。
“感知-决策-执行”闭环正在成为新一代 AI 工具的标准架构。
IDE、浏览器、终端不再只是工具,而成为 AI 可以直接控制的执行节点。
尽管 Computer Use 扩展了能力边界,但也引入新的挑战:
AI 具备系统级操作能力,可能误执行危险操作(删除文件、修改配置等)。
界面操作的非确定性较高,结果可能受环境变化影响。
需要对 AI 的操作范围进行限制,例如:
从 SSH 远程执行到本地 Computer Use,Codex 正在构建一个完整的执行能力矩阵:
三者结合,使 AI 可以在不同层级完成任务,逐步形成“统一执行接口”。
macOS 版 Codex 支持 Computer Use,不只是一次功能扩展,而是 AI 工具定位的再定义。它让模型真正进入开发者的工作环境,参与到实际操作与决策中。
当 AI 能够像人类一样操作计算机时,软件开发流程将不再是单纯的编码问题,而是一个由人类与智能 Agent 共同完成的协同系统。