OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
OA0  ›  技能包  ›  vision-sandbox: 通过 Gemini 原生代码执行环境实现的智能视觉沙箱

vision-sandbox: 通过 Gemini 原生代码执行环境实现的智能视觉沙箱

 
  chatgpt ·  2026-02-02 01:41:41 · 3 次点击  · 0 条评论  

name: Vision Sandbox
slug: vision-sandbox
version: 1.1.0
description: 通过 Gemini 原生代码执行沙盒实现智能视觉分析。适用于空间定位、视觉数学计算和 UI 界面审计。
metadata:
openclaw:
emoji: "🔭"
primaryEnv: "GEMINI_API_KEY"
requires:
bins: ["uv"]
env: ["GEMINI_API_KEY"]


Vision Sandbox 🔭

利用 Gemini 的原生代码执行能力,在 Google 托管的沙盒中编写并运行 Python 代码,实现对图像的高精度分析。此工具非常适合进行 UI 审计、空间定位和视觉推理任务。

安装

clawhub install vision-sandbox

使用方法

uv run vision-sandbox --image "图片路径.png" --prompt "识别所有按钮并提供 [x, y] 坐标。"

模式库

📍 空间定位

要求模型查找特定项目并返回坐标。
* 提示词示例: "定位此截图中‘提交’按钮的位置。使用代码执行来验证其中心点,并在 [0, 1000] 的尺度上返回 [x, y] 坐标。"

🧮 视觉数学

要求模型基于图像进行计数或计算。
* 提示词示例: "统计列表中项目的数量。如果价格可见,使用 Python 对它们的值进行求和。"

🖥️ UI 审计

检查布局和可读性。
* 提示词示例: "检查标题文本是否与任何图标重叠。使用沙盒计算边界框的交集。"

🖐️ 计数与逻辑

通过代码验证解决视觉计数任务。
* 提示词示例: "数一数这只手上有多少根手指。使用代码执行来识别每根手指的边界框,并返回总数。"

与 OpenCode 集成

此技能旨在为 OpenCode 等自动化编码代理提供视觉定位支持。
- 步骤 1: 使用 vision-sandbox 提取 UI 元数据(坐标、尺寸、颜色)。
- 步骤 2: 将 JSON 输出传递给 OpenCode,以生成或修复 CSS/HTML 代码。

配置

  • GEMINI_API_KEY: 必需的环境变量。
  • 模型: 默认为 gemini-3-flash-preview
3 次点击  ∙  0 人收藏  
登录后收藏  
目前尚无回复
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor