名称: browser
描述: 通过 CLI 命令使用自然语言自动化网页浏览器交互。当用户要求浏览网站、导航网页、从网站提取数据、截图、填写表单、点击按钮或与 Web 应用交互时使用。
允许工具: Bash
使用 Stagehand CLI 与 Claude 自动化浏览器交互。
本技能会根据配置自动选择本地或远程浏览器环境:
- 如果存在 Browserbase API 密钥(.env 文件中包含 BROWSERBASE_API_KEY 和 BROWSERBASE_PROJECT_ID):使用远程 Browserbase 环境
- 如果没有 Browserbase API 密钥:回退到本地 Chrome 浏览器
- 无需用户干预:选择过程基于可用配置自动完成
检查本目录下的 setup.json 文件。如果 setupComplete: false,请执行:
npm install # 安装依赖
npm link # 创建全局 'browser' 命令
所有命令在两种模式下功能一致:
browser navigate <url> # 访问指定 URL
browser act "<action>" # 执行自然语言描述的操作
browser extract "<instruction>" ['{}'] # 提取数据(可提供 JSON 结构)
browser observe "<query>" # 查找页面元素
browser screenshot # 截图
browser close # 关闭浏览器
browser navigate https://example.com
browser act "点击登录按钮"
browser extract "获取页面标题"
browser close
| 特性 | 本地模式 | Browserbase 模式 |
|---|---|---|
| 速度 | 更快 | 稍慢 |
| 设置要求 | 需安装 Chrome | 需配置 API 密钥 |
| 隐身模式 | 不支持 | 支持 |
| 代理/CAPTCHA 支持 | 不支持 | 支持 |
| 适用场景 | 开发测试 | 生产环境/数据采集 |
browser observe 命令查看可用页面元素详细示例请参阅 EXAMPLES.md。
API 参考文档请查看 REFERENCE.md。