OpenAdapt 是连接大型多模态模型(LMMs)与传统桌面及网页 GUI 的开源软件适配器。
通过统一的 CLI,您可以录制 GUI 演示、训练机器学习模型并评估智能体。
加入我们的 Discord | 文档 | OpenAdapt.ai
OpenAdapt v1.0+ 采用模块化元包架构。主 openadapt 包提供统一的 CLI,并通过 PyPI 依赖多个功能专注的子包:
| 包 | 描述 | 代码库 |
|---|---|---|
openadapt |
包含统一 CLI 的元包 | 本仓库 |
openadapt-capture |
事件录制与存储 | openadapt-capture |
openadapt-ml |
ML 引擎、训练、推理 | openadapt-ml |
openadapt-evals |
基准评估 | openadapt-evals |
openadapt-viewer |
HTML 可视化 | openadapt-viewer |
openadapt-grounding |
UI 元素定位 | openadapt-grounding |
openadapt-retrieval |
多模态演示检索 | openadapt-retrieval |
openadapt-privacy |
PII/PHI 数据擦除 | openadapt-privacy |
openadapt-wright |
开发自动化 | openadapt-wright |
openadapt-herald |
基于 Git 历史的社交媒体 | openadapt-herald |
openadapt-crier |
Telegram 审批机器人 | openadapt-crier |
openadapt-consilium |
多模型共识 | openadapt-consilium |
openadapt-desktop |
桌面 GUI 应用程序 | openadapt-desktop |
openadapt-tray |
系统托盘应用 | openadapt-tray |
openadapt-agent |
生产执行引擎 | openadapt-agent |
openadapt-telemetry |
错误追踪 | openadapt-telemetry |
按需安装:
pip install openadapt # 仅最小化 CLI
pip install openadapt[capture] # GUI 捕获/录制
pip install openadapt[ml] # ML 训练和推理
pip install openadapt[evals] # 基准评估
pip install openadapt[privacy] # PII/PHI 数据擦除
pip install openadapt[all] # 全部功能
要求: Python 3.10+
openadapt capture start --name my-task
# 在 GUI 中执行操作,然后按 Ctrl+C 停止
openadapt train start --capture my-task --model qwen3vl-2b
openadapt eval run --checkpoint training_output/model.pt --benchmark waa
openadapt capture view my-task
| 包 | 描述 | 代码库 |
|---|---|---|
openadapt |
包含统一 CLI 的元包 | 本仓库 |
openadapt-capture |
事件录制与存储 | openadapt-capture |
openadapt-ml |
ML 引擎、训练、推理 | openadapt-ml |
openadapt-evals |
基准评估 | openadapt-evals |
openadapt-viewer |
HTML 可视化 | openadapt-viewer |
openadapt-grounding |
UI 元素定位 | openadapt-grounding |
openadapt-retrieval |
多模态演示检索 | openadapt-retrieval |
openadapt-privacy |
PII/PHI 数据擦除 | openadapt-privacy |
| 包 | 描述 | 代码库 |
|---|---|---|
openadapt-desktop |
桌面 GUI 应用程序 | openadapt-desktop |
openadapt-tray |
系统托盘应用 | openadapt-tray |
openadapt-agent |
生产执行引擎 | openadapt-agent |
openadapt-wright |
开发自动化 | openadapt-wright |
openadapt-herald |
基于 Git 历史的社交媒体 | openadapt-herald |
openadapt-crier |
Telegram 审批机器人 | openadapt-crier |
openadapt-consilium |
多模型共识 | openadapt-consilium |
openadapt-telemetry |
错误追踪 | openadapt-telemetry |
openadapt capture start --name <name> 开始录制
openadapt capture stop 停止录制
openadapt capture list 列出录制内容
openadapt capture view <name> 打开录制查看器
openadapt train start --capture <name> 基于录制内容训练模型
openadapt train status 检查训练进度
openadapt train stop 停止训练
openadapt eval run --checkpoint <path> 评估训练好的模型
openadapt eval run --agent api-claude 评估 API 智能体
openadapt eval mock --tasks 10 运行模拟评估
openadapt serve --port 8080 启动仪表板服务器
openadapt version 显示已安装版本
openadapt doctor 检查系统要求
查看完整的架构演进文档以获取详细信息。
OpenAdapt 遵循简化的 演示 → 学习 → 执行 流程:
1. 演示(观察收集)
- 捕获:使用 openadapt-capture 录制用户操作和屏幕截图
- 隐私:使用 openadapt-privacy 擦除录制内容中的 PII/PHI 数据
- 存储:构建可搜索的演示库
2. 学习(策略获取)
- 检索路径:嵌入演示内容,建立索引,并启用语义搜索
- 训练路径:加载演示内容并微调视觉语言模型(VLMs)
- 抽象:从字面回放逐步过渡到基于模板的自动化
3. 执行(智能体部署)
- 观察:截取屏幕截图并收集无障碍访问信息
- 策略:通过 VLMs(Claude、GPT-4o、Qwen3-VL)利用演示上下文决定操作
- 定位:使用 openadapt-grounding 将意图映射到具体的 UI 坐标
- 执行:在安全门控下执行已验证的操作
- 评估:使用 openadapt-evals 衡量成功率,并将结果反馈以改进
零样本 VLMs 在 GUI 任务上失败,并非因为能力不足,而是由于UI 可供性存在歧义。OpenAdapt 通过让智能体以人类演示为条件来解决此问题——即“展示,而非告知”。
| 无检索 | 有检索 | |
|---|---|---|
| 无微调 | 46.7% (零样本基线) | 100% 首次操作准确率 (n=45,共享入口点) |
| 有微调 | 标准 SFT (基线) | 演示条件微调 (计划中) |
右下角的单元格是 OpenAdapt 的独特价值:训练模型使用它们未曾见过的演示,将检索与微调相结合以实现最高准确率。第二阶段(仅检索提示)已验证;第三阶段(演示条件微调)正在进行中。
已验证结果:在一个受控的 macOS 基准测试(45 个共享共同导航入口点的系统设置任务)中,演示条件提示将首次操作准确率从 46.7% 提升至 100%。长度匹配的对照组(仅提升 11.1 个百分点)证实了这种益处是语义上的,而非令牌长度所致。有关方法论,请参阅研究论文;有关局限性,请参阅发布路线图。
行业验证:OpenCUA(NeurIPS 2025 Spotlight,XLANG 实验室)在其 AgentNetTool 中复用了 OpenAdapt 的 macOS 无障碍访问捕获代码,但仅将演示用于模型训练——而非运行时条件化。目前没有开源 CUA 框架实现演示条件推理,这仍然是 OpenAdapt 的架构差异化优势。
| 术语 | 描述 |
|---|---|
| 观察 | 智能体感知到的内容(屏幕截图、无障碍访问树) |
| 操作 | 智能体执行的动作(点击、输入、滚动等) |
| 轨迹 | 观察-操作对的序列 |
| 演示 | 人类提供的示例轨迹 |
| 策略 | 将观察映射到操作的决策组件 |
| 定位 | 将意图映射到特定 UI 元素(坐标) |
旧版本(v0.46.0)示例:
- Twitter 演示 - 早期 OpenAdapt 演示
- Loom 视频 - 流程自动化演练
注意:这些演示展示的是旧的单体架构版本。有关当前 v1.0+ 模块化架构的示例,请参阅文档。
macOS: 授予终端辅助功能、屏幕录制和输入监控权限。参见权限指南。
Windows: 如果需要输入捕获,请以管理员身份运行。
单体架构的 OpenAdapt 代码库(v0.46.0)保存在 legacy/ 目录中。
使用旧版本:
pip install openadapt==0.46.0
迁移指南和详细信息请参阅 docs/LEGACY_FREEZE.md。
对于子包开发:
git clone https://github.com/OpenAdaptAI/openadapt-ml # 或其他子包
cd openadapt-ml
pip install -e ".[dev]"
MIT 许可证 - 详情请参阅 LICENSE。