名称: gemini-computer-use
描述: 使用 Playwright 构建和运行 Gemini 2.5 Computer Use 浏览器控制智能体。适用于用户希望通过 Gemini Computer Use 模型自动化网页浏览器任务、需要智能体循环(截图 → 函数调用 → 执行动作 → 函数响应)或要求为有风险的 UI 操作集成安全确认的场景。
配置环境变量并设置 API 密钥:
bash
cp env.example env.sh
$EDITOR env.sh
source env.sh
创建虚拟环境并安装依赖:
bash
python -m venv .venv
source .venv/bin/activate
pip install google-genai playwright
playwright install chromium
运行智能体脚本并指定任务提示:
bash
python scripts/computer_use_agent.py \
--prompt "在 example.com 上查找最新的博客文章标题" \
--start-url "https://example.com" \
--turn-limit 6
COMPUTER_USE_BROWSER_CHANNEL 环境变量来指定 Chrome 或 Edge。COMPUTER_USE_BROWSER_EXECUTABLE 环境变量来指定基于 Chromium 的自定义浏览器可执行文件路径(例如 Brave)。如果同时设置了上述两个环境变量,COMPUTER_USE_BROWSER_EXECUTABLE 的优先级更高。
function_call 动作指令。safety_decision 为 require_confirmation,则在执行前提示用户进行确认。function_response 对象发送回模型。--exclude 参数来阻止模型执行你不希望它进行的风险操作。scripts/computer_use_agent.pyreferences/google-computer-use.mdenv.example