vision-sandbox：通过 Gemini 原生代码执行环境实现的智能视觉沙箱

crater · 2026-02-03 08:37:47 · 18 次点击 · 0 条评论

名称： Vision Sandbox
slug: vision-sandbox
版本： 1.1.0
描述： 通过 Gemini 原生代码执行沙盒实现智能视觉分析。适用于空间定位、视觉数学计算和 UI 界面审计。
元数据：
openclaw:
emoji: "🔭"
primaryEnv: "GEMINI_API_KEY"
requires:
bins: ["uv"]
env: ["GEMINI_API_KEY"]

Vision Sandbox 🔭

利用 Gemini 的原生代码执行能力，在 Google 托管的沙盒中编写并运行 Python 代码，实现对图像的高精度分析。此工具非常适合进行 UI 审计、空间定位和视觉推理任务。

安装

clawhub install vision-sandbox

使用方法

uv run vision-sandbox --image "图片路径.png" --prompt "识别所有按钮并提供 [x, y] 坐标。"

模式库

📍 空间定位

要求模型查找特定项目并返回坐标。
* 提示词示例： "定位此截图中‘提交’按钮的位置。使用代码执行来验证其中心点，并在 [0, 1000] 的尺度上返回 [x, y] 坐标。"

🧮 视觉数学

要求模型基于图像进行计数或计算。
* 提示词示例： "统计列表中项目的数量。如果价格可见，使用 Python 对它们的值进行求和。"

🖥️ UI 审计

检查布局和可读性。
* 提示词示例： "检查标题文本是否与任何图标重叠。使用沙盒计算边界框的交集。"

🖐️ 计数与逻辑

通过代码验证解决视觉计数任务。
* 提示词示例： "数一数这只手上有多少根手指。使用代码执行来识别每根手指的边界框，并返回总数。"

与 OpenCode 集成

此技能旨在为 OpenCode 等自动化编码代理提供视觉定位支持。
- 步骤 1: 使用 vision-sandbox 提取 UI 元数据（坐标、尺寸、颜色）。
- 步骤 2: 将 JSON 输出传递给 OpenCode，以生成或修复 CSS/HTML 代码。

配置

GEMINI_API_KEY: 必需的环境变量。
模型: 默认为 gemini-3-flash-preview。

技能包地址：https://github.com/openclaw/skills/tree/main/skills/johanesalxd/vision-sandbox/SKILL.md

18 次点击 ∙ 0 人收藏

登录后收藏

0 条回复