OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
OA0  ›  技能包  ›  gemini-computer-use:构建并运行基于 Gemini 2.5 的浏览器控制智能体

gemini-computer-use:构建并运行基于 Gemini 2.5 的浏览器控制智能体

 
  audit ·  2026-02-05 16:29:05 · 3 次点击  · 0 条评论  

名称: gemini-computer-use
描述: 使用 Playwright 构建和运行 Gemini 2.5 Computer Use 浏览器控制智能体。适用于用户希望通过 Gemini Computer Use 模型自动化网页浏览器任务、需要智能体循环(截图 → 函数调用 → 执行动作 → 函数响应)或要求为有风险的 UI 操作集成安全确认的场景。


Gemini Computer Use

快速开始

  1. 配置环境变量并设置 API 密钥:

    bash cp env.example env.sh $EDITOR env.sh source env.sh

  2. 创建虚拟环境并安装依赖:

    bash python -m venv .venv source .venv/bin/activate pip install google-genai playwright playwright install chromium

  3. 运行智能体脚本并指定任务提示:

    bash python scripts/computer_use_agent.py \ --prompt "在 example.com 上查找最新的博客文章标题" \ --start-url "https://example.com" \ --turn-limit 6

浏览器选择

  • 默认:使用 Playwright 自带的 Chromium(无需设置环境变量)。
  • 选择特定渠道:通过设置 COMPUTER_USE_BROWSER_CHANNEL 环境变量来指定 Chrome 或 Edge。
  • 使用自定义浏览器:通过设置 COMPUTER_USE_BROWSER_EXECUTABLE 环境变量来指定基于 Chromium 的自定义浏览器可执行文件路径(例如 Brave)。

如果同时设置了上述两个环境变量,COMPUTER_USE_BROWSER_EXECUTABLE 的优先级更高。

核心工作流程(智能体循环)

  1. 捕获截图:将用户目标与当前屏幕截图发送给模型。
  2. 解析动作:解析模型响应中的 function_call 动作指令。
  3. 执行动作:在 Playwright 中依次执行每个动作。
  4. 安全确认:如果某个动作的 safety_decisionrequire_confirmation,则在执行前提示用户进行确认。
  5. 发送响应:将包含最新 URL 和截图的 function_response 对象发送回模型。
  6. 循环执行:重复上述步骤,直到模型仅返回文本(无动作指令)或达到预设的轮次限制。

操作指南

  • 安全运行:建议在沙盒化的浏览器配置文件或容器中运行此智能体。
  • 风险控制:使用 --exclude 参数来阻止模型执行你不希望它进行的风险操作。
  • 视口设置:除非有特殊原因,否则请将浏览器视口保持在 1440x900 的分辨率。

资源文件

  • 主脚本:scripts/computer_use_agent.py
  • 参考文档:references/google-computer-use.md
  • 环境变量模板:env.example
3 次点击  ∙  0 人收藏  
登录后收藏  
目前尚无回复
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor