name: Vision Sandbox
slug: vision-sandbox
version: 1.1.0
description: 通过 Gemini 原生代码执行沙盒实现智能视觉分析。适用于空间定位、视觉数学计算和 UI 界面审计。
metadata:
openclaw:
emoji: "🔭"
primaryEnv: "GEMINI_API_KEY"
requires:
bins: ["uv"]
env: ["GEMINI_API_KEY"]
利用 Gemini 的原生代码执行能力,在 Google 托管的沙盒中编写并运行 Python 代码,实现对图像的高精度分析。此工具非常适合进行 UI 审计、空间定位和视觉推理任务。
clawhub install vision-sandbox
uv run vision-sandbox --image "图片路径.png" --prompt "识别所有按钮并提供 [x, y] 坐标。"
要求模型查找特定项目并返回坐标。
* 提示词示例: "定位此截图中‘提交’按钮的位置。使用代码执行来验证其中心点,并在 [0, 1000] 的尺度上返回 [x, y] 坐标。"
要求模型基于图像进行计数或计算。
* 提示词示例: "统计列表中项目的数量。如果价格可见,使用 Python 对它们的值进行求和。"
检查布局和可读性。
* 提示词示例: "检查标题文本是否与任何图标重叠。使用沙盒计算边界框的交集。"
通过代码验证解决视觉计数任务。
* 提示词示例: "数一数这只手上有多少根手指。使用代码执行来识别每根手指的边界框,并返回总数。"
此技能旨在为 OpenCode 等自动化编码代理提供视觉定位支持。
- 步骤 1: 使用 vision-sandbox 提取 UI 元数据(坐标、尺寸、颜色)。
- 步骤 2: 将 JSON 输出传递给 OpenCode,以生成或修复 CSS/HTML 代码。
gemini-3-flash-preview。