gemini-computer-use：构建并运行基于 Gemini 2.5 的浏览器控制智能体

brick · 2026-02-04 11:44:53 · 55 次点击 · 0 条评论

名称： gemini-computer-use
描述： 使用 Playwright 构建和运行 Gemini 2.5 Computer Use 浏览器控制智能体。适用于用户希望通过 Gemini Computer Use 模型自动化网页浏览器任务、需要智能体循环（截图 → 函数调用 → 执行动作 → 函数响应）或要求为有风险的 UI 操作集成安全确认的场景。

Gemini Computer Use

快速开始

配置环境变量并设置 API 密钥：

bash cp env.example env.sh $EDITOR env.sh source env.sh
创建虚拟环境并安装依赖：

bash python -m venv .venv source .venv/bin/activate pip install google-genai playwright playwright install chromium
运行智能体脚本并指定任务提示：

bash python scripts/computer_use_agent.py \ --prompt "在 example.com 上查找最新的博客文章标题" \ --start-url "https://example.com" \ --turn-limit 6

浏览器选择

默认：使用 Playwright 自带的 Chromium（无需设置环境变量）。
选择特定渠道：通过设置 COMPUTER_USE_BROWSER_CHANNEL 环境变量来指定 Chrome 或 Edge。
使用自定义浏览器：通过设置 COMPUTER_USE_BROWSER_EXECUTABLE 环境变量来指定基于 Chromium 的自定义浏览器可执行文件路径（例如 Brave）。

如果同时设置了上述两个环境变量，COMPUTER_USE_BROWSER_EXECUTABLE 的优先级更高。

核心工作流程（智能体循环）

捕获截图：将用户目标与当前屏幕截图发送给模型。
解析动作：解析模型响应中的 function_call 动作指令。
执行动作：在 Playwright 中依次执行每个动作。
安全确认：如果某个动作的 safety_decision 为 require_confirmation，则在执行前提示用户进行确认。
发送响应：将包含最新 URL 和截图的 function_response 对象发送回模型。
循环执行：重复上述步骤，直到模型仅返回文本（无动作指令）或达到预设的轮次限制。

操作指南

安全运行：建议在沙盒化的浏览器配置文件或容器中运行此智能体。
风险控制：使用 --exclude 参数来阻止模型执行你不希望它进行的风险操作。
视口设置：除非有特殊原因，否则请将浏览器视口保持在 1440x900 的分辨率。

资源文件

主脚本：scripts/computer_use_agent.py
参考文档：references/google-computer-use.md
环境变量模板：env.example

技能包地址：https://github.com/openclaw/skills/tree/main/skills/am-will/gemini-computer-use/SKILL.md

55 次点击 ∙ 0 人收藏

登录后收藏

0 条回复