OmniParser — 将复杂 UI 截图解析为结构化元素的视觉工具

backend · 2026-02-08 22:50:42 · 20 次点击 · 0 条评论

📢 [项目主页] [V2 博客文章] [V2 模型] [V1.5 模型] [HuggingFace Space 演示]

OmniParser 是一个将用户界面截图解析为结构化、易于理解的元素的综合性方法。它能显著增强 GPT-4V 等模型生成可精确对应到界面特定区域的操作指令的能力。

最新动态

[2025年3月] 我们支持轨迹的本地日志记录，以便您可以使用 OmniParser + OmniTool 为您所在领域的首选代理构建训练数据管道。[文档完善中]
[2025年3月] 我们正在逐步为 OmniTool 添加多代理编排功能并改进用户界面，以提供更好的体验。
[2025年2月] 我们发布了 OmniParser V2 模型检查点。观看视频
[2025年2月] 我们推出了 OmniTool：使用 OmniParser + 您选择的视觉模型来控制 Windows 11 虚拟机。OmniTool 开箱即用地支持以下大型语言模型 - OpenAI (4o/o1/o3-mini)、DeepSeek (R1)、Qwen (2.5VL) 或 Anthropic Computer Use。观看视频
[2025年1月] V2 即将到来。我们在新的定位基准测试 Screen Spot Pro 上取得了新的最先进成果 39.5%（使用即将发布的 OmniParser v2）！阅读更多详情请点击此处。
[2024年11月] 我们发布了更新版本 OmniParser V1.5，其特点是：1) 更精细/小图标检测，2) 预测每个屏幕元素是否可交互。示例见 demo.ipynb。
[2024年10月] OmniParser 成为 Huggingface 模型中心上排名第一的趋势模型（自 2024年10月29日起）。
[2024年10月] 欢迎查看我们在 Huggingface Space 上的演示！（敬请期待 OmniParser + Claude Computer Use）
[2024年10月] 交互区域检测模型和图标功能描述模型均已发布！Hugginface 模型
[2024年9月] OmniParser 在 Windows Agent Arena 上取得了最佳性能！

安装

首先克隆仓库，然后安装环境：

cd OmniParser
conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt

确保您已将 V2 权重下载到 weights 文件夹中（确保字幕权重文件夹名为 icon_caption_florence）。如果尚未下载，请使用以下命令：

   # 将模型检查点下载到本地目录 OmniParser/weights/
   for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; done
   mv weights/icon_caption weights/icon_caption_florence

项目地址：https://github.com/microsoft/OmniParser

20 次点击 ∙ 0 人收藏

登录后收藏

0 条回复