

📢 [项目主页] [V2 博客文章] [V2 模型] [V1.5 模型] [HuggingFace Space 演示]
OmniParser 是一个将用户界面截图解析为结构化、易于理解的元素的综合性方法。它能显著增强 GPT-4V 等模型生成可精确对应到界面特定区域的操作指令的能力。
最新动态
- [2025年3月] 我们支持轨迹的本地日志记录,以便您可以使用 OmniParser + OmniTool 为您所在领域的首选代理构建训练数据管道。[文档完善中]
- [2025年3月] 我们正在逐步为 OmniTool 添加多代理编排功能并改进用户界面,以提供更好的体验。
- [2025年2月] 我们发布了 OmniParser V2 模型检查点。观看视频
- [2025年2月] 我们推出了 OmniTool:使用 OmniParser + 您选择的视觉模型来控制 Windows 11 虚拟机。OmniTool 开箱即用地支持以下大型语言模型 - OpenAI (4o/o1/o3-mini)、DeepSeek (R1)、Qwen (2.5VL) 或 Anthropic Computer Use。观看视频
- [2025年1月] V2 即将到来。我们在新的定位基准测试 Screen Spot Pro 上取得了新的最先进成果 39.5%(使用即将发布的 OmniParser v2)!阅读更多详情请点击此处。
- [2024年11月] 我们发布了更新版本 OmniParser V1.5,其特点是:1) 更精细/小图标检测,2) 预测每个屏幕元素是否可交互。示例见 demo.ipynb。
- [2024年10月] OmniParser 成为 Huggingface 模型中心上排名第一的趋势模型(自 2024年10月29日起)。
- [2024年10月] 欢迎查看我们在 Huggingface Space 上的演示!(敬请期待 OmniParser + Claude Computer Use)
- [2024年10月] 交互区域检测模型和图标功能描述模型均已发布!Hugginface 模型
- [2024年9月] OmniParser 在 Windows Agent Arena 上取得了最佳性能!
安装
首先克隆仓库,然后安装环境:
cd OmniParser
conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt
确保您已将 V2 权重下载到 weights 文件夹中(确保字幕权重文件夹名为 icon_caption_florence)。如果尚未下载,请使用以下命令:
# 将模型检查点下载到本地目录 OmniParser/weights/
for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; done
mv weights/icon_caption weights/icon_caption_florence