名称: browser-use
描述: 自动化浏览器交互,用于网页测试、表单填写、截图和数据提取。适用于用户需要浏览网站、与网页交互、填写表单、截图或从网页提取信息的场景。
允许工具: Bash(browser-use:*)
browser-use 命令提供快速、持久的浏览器自动化。它在命令之间保持浏览器会话,支持复杂的多步骤工作流。
使用此技能前,必须安装并配置 browser-use。运行诊断以验证:
browser-use doctor
更多信息,请参阅 https://github.com/browser-use/browser-use/blob/main/browser_use/skill_cli/README.md
browser-use open <url> - 打开 URL(必要时启动浏览器)browser-use state - 返回带有索引的可点击元素browser-use click 5,browser-use input 3 "text")browser-use state 或 browser-use screenshot 确认操作browser-use --browser chromium open <url> # 默认:无头 Chromium
browser-use --browser chromium --headed open <url> # 可见的 Chromium 窗口
browser-use --browser real open <url> # 真实 Chrome(无配置文件 = 全新)
browser-use --browser real --profile "Default" open <url> # 使用您登录会话的真实 Chrome
browser-use --browser remote open <url> # 云浏览器
--profile 时,使用位于 ~/.config/browseruse/profiles/cli/ 的持久但空的 CLI 配置文件。带 --profile "ProfileName" 时,复制您实际的 Chrome 配置文件(cookies、登录信息、扩展程序)# 导航
browser-use open <url> # 导航到 URL
browser-use back # 后退
browser-use scroll down # 向下滚动(--amount N 指定像素)
# 页面状态(始终先运行 state 以获取元素索引)
browser-use state # 获取 URL、标题、可点击元素
browser-use screenshot # 截图(base64)
browser-use screenshot path.png # 保存截图到文件
# 交互(使用 state 中的索引)
browser-use click <index> # 点击元素
browser-use type "text" # 在聚焦元素中输入
browser-use input <index> "text" # 点击元素,然后输入
browser-use keys "Enter" # 发送键盘按键
browser-use select <index> "option" # 选择下拉选项
# 数据提取
browser-use eval "document.title" # 执行 JavaScript
browser-use get text <index> # 获取元素文本
browser-use get html --selector "h1" # 获取限定范围的 HTML
# 等待
browser-use wait selector "h1" # 等待元素出现
browser-use wait text "Success" # 等待文本出现
# 会话
browser-use sessions # 列出活动会话
browser-use close # 关闭当前会话
browser-use close --all # 关闭所有会话
# AI 代理
browser-use -b remote run "task" # 在云端运行代理(默认异步)
browser-use task status <id> # 检查云端任务进度
browser-use open <url> # 导航到 URL
browser-use back # 后退历史记录
browser-use scroll down # 向下滚动
browser-use scroll up # 向上滚动
browser-use scroll down --amount 1000 # 按指定像素滚动(默认:500)
browser-use switch <tab> # 按索引切换标签页
browser-use close-tab # 关闭当前标签页
browser-use close-tab <tab> # 关闭指定标签页
browser-use state # 获取 URL、标题和可点击元素
browser-use screenshot # 截图(输出 base64)
browser-use screenshot path.png # 保存截图到文件
browser-use screenshot --full path.png # 全页面截图
browser-use click <index> # 点击元素
browser-use type "text" # 在聚焦元素中输入文本
browser-use input <index> "text" # 点击元素,然后输入文本
browser-use keys "Enter" # 发送键盘按键
browser-use keys "Control+a" # 发送组合键
browser-use select <index> "option" # 选择下拉选项
browser-use hover <index> # 悬停在元素上(触发 CSS :hover)
browser-use dblclick <index> # 双击元素
browser-use rightclick <index> # 右键点击元素(上下文菜单)
使用 browser-use state 中的索引。
browser-use eval "document.title" # 执行 JavaScript,返回结果
browser-use get title # 获取页面标题
browser-use get html # 获取完整页面 HTML
browser-use get html --selector "h1" # 获取特定元素的 HTML
browser-use get text <index> # 获取元素的文本内容
browser-use get value <index> # 获取输入框/文本域的值
browser-use get attributes <index> # 获取元素的所有属性
browser-use get bbox <index> # 获取边界框(x, y, 宽度, 高度)
browser-use cookies get # 获取所有 cookies
browser-use cookies get --url <url> # 获取特定 URL 的 cookies
browser-use cookies set <name> <value> # 设置 cookie
browser-use cookies set name val --domain .example.com --secure --http-only
browser-use cookies set name val --same-site Strict # SameSite: Strict, Lax 或 None
browser-use cookies set name val --expires 1735689600 # 过期时间戳
browser-use cookies clear # 清除所有 cookies
browser-use cookies clear --url <url> # 清除特定 URL 的 cookies
browser-use cookies export <file> # 导出所有 cookies 到 JSON 文件
browser-use cookies export <file> --url <url> # 导出特定 URL 的 cookies
browser-use cookies import <file> # 从 JSON 文件导入 cookies
browser-use wait selector "h1" # 等待元素可见
browser-use wait selector ".loading" --state hidden # 等待元素消失
browser-use wait selector "#btn" --state attached # 等待元素出现在 DOM 中
browser-use wait text "Success" # 等待文本出现
browser-use wait selector "h1" --timeout 5000 # 自定义超时(毫秒)
browser-use python "x = 42" # 设置变量
browser-use python "print(x)" # 访问变量(输出:42)
browser-use python "print(browser.url)" # 访问浏览器对象
browser-use python --vars # 显示已定义的变量
browser-use python --reset # 清除 Python 命名空间
browser-use python --file script.py # 执行 Python 文件
Python 会话在命令之间保持状态。browser 对象提供:
- browser.url、browser.title、browser.html — 页面信息
- browser.goto(url)、browser.back() — 导航
- browser.click(index)、browser.type(text)、browser.input(index, text)、browser.keys(keys) — 交互
- browser.screenshot(path)、browser.scroll(direction, amount) — 视觉操作
- browser.wait(seconds)、browser.extract(query) — 实用工具
使用 --browser remote 时,可使用额外选项:
# 指定 LLM 模型
browser-use -b remote run "task" --llm gpt-4o
browser-use -b remote run "task" --llm claude-sonnet-4-20250514
# 代理配置(默认:us)
browser-use -b remote run "task" --proxy-country uk
# 会话复用
browser-use -b remote run "task 1" --keep-alive # 任务后保持会话存活
browser-use -b remote run "task 2" --session-id abc-123 # 复用现有会话
# 执行模式
browser-use -b remote run "task" --flash # 快速执行模式
browser-use -b remote run "task" --wait # 等待完成(默认:异步)
# 高级选项
browser-use -b remote run "task" --thinking # 扩展推理模式
browser-use -b remote run "task" --no-vision # 禁用视觉(默认启用)
# 使用云配置文件(先创建会话,然后用 --session-id 运行)
browser-use session create --profile <cloud-profile-id> --keep-alive
# → 返回 session_id
browser-use -b remote run "task" --session-id <session-id>
# 任务配置
browser-use -b remote run "task" --start-url https://example.com # 从特定 URL 开始
browser-use -b remote run "task" --allowed-domain example.com # 限制导航(可重复)
browser-use -b remote run "task" --metadata key=value # 任务元数据(可重复)
browser-use -b remote run "task" --skill-id skill-123 # 启用技能(可重复)
browser-use -b remote run "task" --secret key=value # 秘密元数据(可重复)
# 结构化输出和评估
browser-use -b remote run "task" --structured-output '{"type":"object"}' # 输出的 JSON 模式
browser-use -b remote run "task" --judge # 启用评判模式
browser-use -b remote run "task" --judge-ground-truth "expected answer"
browser-use task list # 列出最近任务
browser-use task list --limit 20 # 显示更多任务
browser-use task list --status finished # 按状态过滤(finished, stopped)
browser-use task list --session <id> # 按会话 ID 过滤
browser-use task list --json # JSON 输出
browser-use task status <task-id> # 获取任务状态(仅最新步骤)
browser-use task status <task-id> -c # 所有步骤(含推理)
browser-use task status <task-id> -v # 所有步骤(含 URL + 操作)
browser-use task status <task-id> --last 5 # 仅最后 N 步
browser-use task status <task-id> --step 3 # 特定步骤编号
browser-use task status <task-id> --reverse # 最新优先
browser-use task stop <task-id> # 停止运行中的任务
browser-use task logs <task-id> # 获取任务执行日志
browser-use session list # 列出云会话
browser-use session list --limit 20 # 显示更多会话
browser-use session list --status active # 按状态过滤
browser-use session list --json # JSON 输出
browser-use session get <session-id> # 获取会话详情 + 实时 URL
browser-use session get <session-id> --json
browser-use session stop <session-id> # 停止会话
browser-use session stop --all # 停止所有活动会话
browser-use session create # 使用默认值创建
browser-use session create --profile <id> # 使用云配置文件
browser-use session create --proxy-country uk # 使用地理代理
browser-use session create --start-url https://example.com
browser-use session create --screen-size 1920x1080
browser-use session create --keep-alive
browser-use session create --persist-memory
browser-use session share <session-id> # 创建公开分享 URL
browser-use session share <session-id> --delete # 删除公开分享
browser-use tunnel <port> # 启动隧道(返回 URL)
browser-use tunnel <port> # 幂等性 - 返回现有 URL
browser-use tunnel list # 显示活动隧道
browser-use tunnel stop <port> # 停止隧道
browser-use tunnel stop --all # 停止所有隧道
browser-use sessions # 列出活动会话
browser-use close # 关闭当前会话
browser-use close --all # 关闭所有会话
--browser real)browser-use -b real profile list # 列出本地 Chrome 配置文件
browser-use -b real profile cookies "Default" # 显示配置文件中的 cookie 域名
--browser remote)browser-use -b remote profile list # 列出云配置文件
browser-use -b remote profile list --page 2 --page-size 50
browser-use -b remote profile get <id> # 获取配置文件详情
browser-use -b remote profile create # 创建新的云配置文件
browser-use -b remote profile create --name "My Profile"
browser-use -b remote profile update <id> --name "New"
browser-use -b remote profile delete <id>
browser-use profile sync --from "Default" --domain github.com # 特定域名
browser-use profile sync --from "Default" # 完整配置文件
browser-use profile sync --from "Default" --name "Custom Name" # 使用自定义名称
browser-use server logs # 查看服务器日志
当您有本地开发服务器且需要云浏览器访问时使用。
核心工作流: 启动开发服务器 → 创建隧道 → 远程浏览隧道 URL。
# 1. 启动您的开发服务器
npm run dev & # localhost:3000
# 2. 通过 Cloudflare 隧道暴露它
browser-use tunnel 3000
# → url: https://abc.trycloudflare.com
# 3. 现在云浏览器可以访问您的本地服务器了
browser-use --browser remote open https://abc.trycloudflare.com
browser-use state
browser-use screenshot
注意: 隧道独立于浏览器会话。它们在 browser-use close 后持续存在,并且可以单独管理。必须安装 Cloudflared — 运行 browser-use doctor 检查。
当任务需要浏览用户已登录的网站(例如 Gmail、GitHub、内部工具)时使用。
核心工作流: 检查现有配置文件 → 询问用户使用哪个配置文件和浏览器模式 → 使用该配置文件浏览。仅在无合适配置文件时同步 cookies。
在浏览需要身份验证的网站前,代理必须:
1. 询问用户使用 real(本地 Chrome)还是 remote(云)浏览器
2. 列出该模式下的可用配置文件
3. 询问使用哪个配置文件
4. 如果没有配置文件包含正确的 cookies,则提供同步选项(见下文)
# 选项 A:本地 Chrome 配置文件(--browser real)
browser-use -b real profile list
# → Default: Person 1 (user@gmail.com)
# → Profile 1: Work (work@company.com)
# 选项 B:云配置文件(--browser remote)
browser-use -b remote profile list
# → abc-123: "Chrome - Default (github.com)"
# → def-456: "Work profile"
# 真实浏览器 — 使用带有现有登录会话的本地 Chrome
browser-use --browser real --profile "Default" open https://github.com
# 云浏览器 — 使用带有同步 cookies 的云配置文件
browser-use --browser remote --profile abc-123 open https://github.com
用户已经过身份验证 — 无需登录。
注意: 云配置文件的 cookies 可能随时间过期。如果身份验证失败,请从本地 Chrome 配置文件重新同步 cookies。
如果用户想使用云浏览器但没有云配置文件包含正确的 cookies,则从本地 Chrome 配置文件同步它们。
在同步前,代理必须:
1. 询问使用哪个本地 Chrome 配置文件
2. 询问同步哪个域名 — 不要默认同步完整配置文件
3. 在继续前确认
检查本地配置文件有哪些 cookies:
browser-use -b real profile cookies "Default"
# → youtube.com: 23
# → google.com: 18
# → github.com: 2
特定域名同步(推荐):
```bash
browser-use profile sync --from "Default" --domain github.com