OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  代码  ›  OpenAdapt — 让 AI 学会观察并自动执行桌面操作

OpenAdapt — 让 AI 学会观察并自动执行桌面操作

 
  cortex ·  2026-04-19 11:00:27 · 12 次点击  · 0 条评论  

OpenAdapt:基于大型多模态模型(LMMs)的 AI 优先流程自动化

构建状态
PyPI 版本
下载量
许可证: MIT
Python 3.10+
Discord

OpenAdapt 是连接大型多模态模型(LMMs)与传统桌面及网页 GUI 的开源软件适配器

通过统一的 CLI,您可以录制 GUI 演示、训练机器学习模型并评估智能体。

加入我们的 Discord | 文档 | OpenAdapt.ai


架构

OpenAdapt v1.0+ 采用模块化元包架构。主 openadapt 包提供统一的 CLI,并通过 PyPI 依赖多个功能专注的子包:

描述 代码库
openadapt 包含统一 CLI 的元包 本仓库
openadapt-capture 事件录制与存储 openadapt-capture
openadapt-ml ML 引擎、训练、推理 openadapt-ml
openadapt-evals 基准评估 openadapt-evals
openadapt-viewer HTML 可视化 openadapt-viewer
openadapt-grounding UI 元素定位 openadapt-grounding
openadapt-retrieval 多模态演示检索 openadapt-retrieval
openadapt-privacy PII/PHI 数据擦除 openadapt-privacy
openadapt-wright 开发自动化 openadapt-wright
openadapt-herald 基于 Git 历史的社交媒体 openadapt-herald
openadapt-crier Telegram 审批机器人 openadapt-crier
openadapt-consilium 多模型共识 openadapt-consilium
openadapt-desktop 桌面 GUI 应用程序 openadapt-desktop
openadapt-tray 系统托盘应用 openadapt-tray
openadapt-agent 生产执行引擎 openadapt-agent
openadapt-telemetry 错误追踪 openadapt-telemetry

安装

按需安装:

pip install openadapt              # 仅最小化 CLI
pip install openadapt[capture]     # GUI 捕获/录制
pip install openadapt[ml]          # ML 训练和推理
pip install openadapt[evals]       # 基准评估
pip install openadapt[privacy]     # PII/PHI 数据擦除
pip install openadapt[all]         # 全部功能

要求: Python 3.10+


快速开始

1. 录制演示

openadapt capture start --name my-task
# 在 GUI 中执行操作,然后按 Ctrl+C 停止

2. 训练模型

openadapt train start --capture my-task --model qwen3vl-2b

3. 评估

openadapt eval run --checkpoint training_output/model.pt --benchmark waa

4. 查看录制内容

openadapt capture view my-task

生态系统

核心平台组件

描述 代码库
openadapt 包含统一 CLI 的元包 本仓库
openadapt-capture 事件录制与存储 openadapt-capture
openadapt-ml ML 引擎、训练、推理 openadapt-ml
openadapt-evals 基准评估 openadapt-evals
openadapt-viewer HTML 可视化 openadapt-viewer
openadapt-grounding UI 元素定位 openadapt-grounding
openadapt-retrieval 多模态演示检索 openadapt-retrieval
openadapt-privacy PII/PHI 数据擦除 openadapt-privacy

应用与工具

描述 代码库
openadapt-desktop 桌面 GUI 应用程序 openadapt-desktop
openadapt-tray 系统托盘应用 openadapt-tray
openadapt-agent 生产执行引擎 openadapt-agent
openadapt-wright 开发自动化 openadapt-wright
openadapt-herald 基于 Git 历史的社交媒体 openadapt-herald
openadapt-crier Telegram 审批机器人 openadapt-crier
openadapt-consilium 多模型共识 openadapt-consilium
openadapt-telemetry 错误追踪 openadapt-telemetry

CLI 参考

openadapt capture start --name <name>    开始录制
openadapt capture stop                    停止录制
openadapt capture list                    列出录制内容
openadapt capture view <name>             打开录制查看器

openadapt train start --capture <name>    基于录制内容训练模型
openadapt train status                    检查训练进度
openadapt train stop                      停止训练

openadapt eval run --checkpoint <path>    评估训练好的模型
openadapt eval run --agent api-claude     评估 API 智能体
openadapt eval mock --tasks 10            运行模拟评估

openadapt serve --port 8080               启动仪表板服务器
openadapt version                         显示已安装版本
openadapt doctor                          检查系统要求

工作原理

查看完整的架构演进文档以获取详细信息。

三阶段流程

OpenAdapt 遵循简化的 演示 → 学习 → 执行 流程:

1. 演示(观察收集)
- 捕获:使用 openadapt-capture 录制用户操作和屏幕截图
- 隐私:使用 openadapt-privacy 擦除录制内容中的 PII/PHI 数据
- 存储:构建可搜索的演示库

2. 学习(策略获取)
- 检索路径:嵌入演示内容,建立索引,并启用语义搜索
- 训练路径:加载演示内容并微调视觉语言模型(VLMs)
- 抽象:从字面回放逐步过渡到基于模板的自动化

3. 执行(智能体部署)
- 观察:截取屏幕截图并收集无障碍访问信息
- 策略:通过 VLMs(Claude、GPT-4o、Qwen3-VL)利用演示上下文决定操作
- 定位:使用 openadapt-grounding 将意图映射到具体的 UI 坐标
- 执行:在安全门控下执行已验证的操作
- 评估:使用 openadapt-evals 衡量成功率,并将结果反馈以改进

核心方法:轨迹条件消歧

零样本 VLMs 在 GUI 任务上失败,并非因为能力不足,而是由于UI 可供性存在歧义。OpenAdapt 通过让智能体以人类演示为条件来解决此问题——即“展示,而非告知”。

无检索 有检索
无微调 46.7% (零样本基线) 100% 首次操作准确率 (n=45,共享入口点)
有微调 标准 SFT (基线) 演示条件微调 (计划中)

右下角的单元格是 OpenAdapt 的独特价值:训练模型使用它们未曾见过的演示,将检索与微调相结合以实现最高准确率。第二阶段(仅检索提示)已验证;第三阶段(演示条件微调)正在进行中。

已验证结果:在一个受控的 macOS 基准测试(45 个共享共同导航入口点的系统设置任务)中,演示条件提示将首次操作准确率从 46.7% 提升至 100%。长度匹配的对照组(仅提升 11.1 个百分点)证实了这种益处是语义上的,而非令牌长度所致。有关方法论,请参阅研究论文;有关局限性,请参阅发布路线图

行业验证OpenCUA(NeurIPS 2025 Spotlight,XLANG 实验室)在其 AgentNetTool 中复用了 OpenAdapt 的 macOS 无障碍访问捕获代码,但仅将演示用于模型训练——而非运行时条件化。目前没有开源 CUA 框架实现演示条件推理,这仍然是 OpenAdapt 的架构差异化优势。

关键概念

  • 策略/定位分离:策略决定做什么;定位决定在哪里
  • 安全门控:操作执行前的运行时验证层(高风险操作需确认模式)
  • 抽象阶梯:从字面回放到目标级自动化的渐进式泛化
  • 评估驱动反馈:成功的轨迹成为新的训练数据

术语

术语 描述
观察 智能体感知到的内容(屏幕截图、无障碍访问树)
操作 智能体执行的动作(点击、输入、滚动等)
轨迹 观察-操作对的序列
演示 人类提供的示例轨迹
策略 将观察映射到操作的决策组件
定位 将意图映射到特定 UI 元素(坐标)

演示

旧版本(v0.46.0)示例:
- Twitter 演示 - 早期 OpenAdapt 演示
- Loom 视频 - 流程自动化演练

注意:这些演示展示的是旧的单体架构版本。有关当前 v1.0+ 模块化架构的示例,请参阅文档


权限

macOS: 授予终端辅助功能、屏幕录制和输入监控权限。参见权限指南

Windows: 如果需要输入捕获,请以管理员身份运行。


旧版本

单体架构的 OpenAdapt 代码库(v0.46.0)保存在 legacy/ 目录中。

使用旧版本:

pip install openadapt==0.46.0

迁移指南和详细信息请参阅 docs/LEGACY_FREEZE.md


贡献

  1. 加入 Discord
  2. 从相关的子包代码库中挑选一个议题
  3. 提交 PR

对于子包开发:

git clone https://github.com/OpenAdaptAI/openadapt-ml  # 或其他子包
cd openadapt-ml
pip install -e ".[dev]"

相关项目


支持

  • Discord: https://discord.gg/yF527cQbDG
  • 问题: 请使用相关的子包代码库
  • 架构文档: GitHub Wiki

许可证

MIT 许可证 - 详情请参阅 LICENSE

12 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 31 ms
Developed with Cursor