OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  代码  ›  OmniParser — 将复杂 UI 截图解析为结构化元素的视觉工具

OmniParser — 将复杂 UI 截图解析为结构化元素的视觉工具

 
  backend ·  2026-03-22 11:00:28 · 4 次点击  · 0 条评论  

arXiv
License

📢 [项目主页] [V2 博客文章] [V2 模型] [V1.5 模型] [HuggingFace Space 演示]

OmniParser 是一个将用户界面截图解析为结构化、易于理解的元素的综合性方法。它能显著增强 GPT-4V 等模型生成可精确对应到界面特定区域的操作指令的能力。

最新动态

  • [2025年3月] 我们支持轨迹的本地日志记录,以便您可以使用 OmniParser + OmniTool 为您所在领域的首选代理构建训练数据管道。[文档完善中]
  • [2025年3月] 我们正在逐步为 OmniTool 添加多代理编排功能并改进用户界面,以提供更好的体验。
  • [2025年2月] 我们发布了 OmniParser V2 模型检查点观看视频
  • [2025年2月] 我们推出了 OmniTool:使用 OmniParser + 您选择的视觉模型来控制 Windows 11 虚拟机。OmniTool 开箱即用地支持以下大型语言模型 - OpenAI (4o/o1/o3-mini)、DeepSeek (R1)、Qwen (2.5VL) 或 Anthropic Computer Use。观看视频
  • [2025年1月] V2 即将到来。我们在新的定位基准测试 Screen Spot Pro 上取得了新的最先进成果 39.5%(使用即将发布的 OmniParser v2)!阅读更多详情请点击此处
  • [2024年11月] 我们发布了更新版本 OmniParser V1.5,其特点是:1) 更精细/小图标检测,2) 预测每个屏幕元素是否可交互。示例见 demo.ipynb。
  • [2024年10月] OmniParser 成为 Huggingface 模型中心上排名第一的趋势模型(自 2024年10月29日起)。
  • [2024年10月] 欢迎查看我们在 Huggingface Space 上的演示!(敬请期待 OmniParser + Claude Computer Use)
  • [2024年10月] 交互区域检测模型和图标功能描述模型均已发布!Hugginface 模型
  • [2024年9月] OmniParser 在 Windows Agent Arena 上取得了最佳性能!

安装

首先克隆仓库,然后安装环境:

cd OmniParser
conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt

确保您已将 V2 权重下载到 weights 文件夹中(确保字幕权重文件夹名为 icon_caption_florence)。如果尚未下载,请使用以下命令:

   # 将模型检查点下载到本地目录 OmniParser/weights/
   for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; done
   mv weights/icon_caption weights/icon_caption_florence
4 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 19 ms
Developed with Cursor