OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

OpenAdapt：基于大型多模态模型（LMMs）的 AI 优先流程自动化

OpenAdapt 是连接大型多模态模型（LMMs）与传统桌面及网页 GUI 的开源软件适配器。

通过统一的 CLI，您可以录制 GUI 演示、训练机器学习模型并评估智能体。

加入我们的 Discord | 文档 | OpenAdapt.ai

架构

OpenAdapt v1.0+ 采用模块化元包架构。主 openadapt 包提供统一的 CLI，并通过 PyPI 依赖多个功能专注的子包：

包	描述	代码库
`openadapt`	包含统一 CLI 的元包	本仓库
`openadapt-capture`	事件录制与存储	openadapt-capture
`openadapt-ml`	ML 引擎、训练、推理	openadapt-ml
`openadapt-evals`	基准评估	openadapt-evals
`openadapt-viewer`	HTML 可视化	openadapt-viewer
`openadapt-grounding`	UI 元素定位	openadapt-grounding
`openadapt-retrieval`	多模态演示检索	openadapt-retrieval
`openadapt-privacy`	PII/PHI 数据擦除	openadapt-privacy
`openadapt-wright`	开发自动化	openadapt-wright
`openadapt-herald`	基于 Git 历史的社交媒体	openadapt-herald
`openadapt-crier`	Telegram 审批机器人	openadapt-crier
`openadapt-consilium`	多模型共识	openadapt-consilium
`openadapt-desktop`	桌面 GUI 应用程序	openadapt-desktop
`openadapt-tray`	系统托盘应用	openadapt-tray
`openadapt-agent`	生产执行引擎	openadapt-agent
`openadapt-telemetry`	错误追踪	openadapt-telemetry

安装

按需安装：

pip install openadapt              # 仅最小化 CLI
pip install openadapt[capture]     # GUI 捕获/录制
pip install openadapt[ml]          # ML 训练和推理
pip install openadapt[evals]       # 基准评估
pip install openadapt[privacy]     # PII/PHI 数据擦除
pip install openadapt[all]         # 全部功能

要求： Python 3.10+

快速开始

1. 录制演示

openadapt capture start --name my-task
# 在 GUI 中执行操作，然后按 Ctrl+C 停止

2. 训练模型

openadapt train start --capture my-task --model qwen3vl-2b

3. 评估

openadapt eval run --checkpoint training_output/model.pt --benchmark waa

4. 查看录制内容

openadapt capture view my-task

生态系统

核心平台组件

包	描述	代码库
`openadapt`	包含统一 CLI 的元包	本仓库
`openadapt-capture`	事件录制与存储	openadapt-capture
`openadapt-ml`	ML 引擎、训练、推理	openadapt-ml
`openadapt-evals`	基准评估	openadapt-evals
`openadapt-viewer`	HTML 可视化	openadapt-viewer
`openadapt-grounding`	UI 元素定位	openadapt-grounding
`openadapt-retrieval`	多模态演示检索	openadapt-retrieval
`openadapt-privacy`	PII/PHI 数据擦除	openadapt-privacy

应用与工具

包	描述	代码库
`openadapt-desktop`	桌面 GUI 应用程序	openadapt-desktop
`openadapt-tray`	系统托盘应用	openadapt-tray
`openadapt-agent`	生产执行引擎	openadapt-agent
`openadapt-wright`	开发自动化	openadapt-wright
`openadapt-herald`	基于 Git 历史的社交媒体	openadapt-herald
`openadapt-crier`	Telegram 审批机器人	openadapt-crier
`openadapt-consilium`	多模型共识	openadapt-consilium
`openadapt-telemetry`	错误追踪	openadapt-telemetry

CLI 参考

openadapt capture start --name <name>    开始录制
openadapt capture stop                    停止录制
openadapt capture list                    列出录制内容
openadapt capture view <name>             打开录制查看器

openadapt train start --capture <name>    基于录制内容训练模型
openadapt train status                    检查训练进度
openadapt train stop                      停止训练

openadapt eval run --checkpoint <path>    评估训练好的模型
openadapt eval run --agent api-claude     评估 API 智能体
openadapt eval mock --tasks 10            运行模拟评估

openadapt serve --port 8080               启动仪表板服务器
openadapt version                         显示已安装版本
openadapt doctor                          检查系统要求

工作原理

查看完整的架构演进文档以获取详细信息。

三阶段流程

OpenAdapt 遵循简化的 演示 → 学习 → 执行 流程：

1. 演示（观察收集）
- 捕获：使用 openadapt-capture 录制用户操作和屏幕截图
- 隐私：使用 openadapt-privacy 擦除录制内容中的 PII/PHI 数据
- 存储：构建可搜索的演示库

2. 学习（策略获取）
- 检索路径：嵌入演示内容，建立索引，并启用语义搜索
- 训练路径：加载演示内容并微调视觉语言模型（VLMs）
- 抽象：从字面回放逐步过渡到基于模板的自动化

3. 执行（智能体部署）
- 观察：截取屏幕截图并收集无障碍访问信息
- 策略：通过 VLMs（Claude、GPT-4o、Qwen3-VL）利用演示上下文决定操作
- 定位：使用 openadapt-grounding 将意图映射到具体的 UI 坐标
- 执行：在安全门控下执行已验证的操作
- 评估：使用 openadapt-evals 衡量成功率，并将结果反馈以改进

核心方法：轨迹条件消歧

零样本 VLMs 在 GUI 任务上失败，并非因为能力不足，而是由于UI 可供性存在歧义。OpenAdapt 通过让智能体以人类演示为条件来解决此问题——即“展示，而非告知”。

	无检索	有检索
无微调	46.7% （零样本基线）	100% 首次操作准确率 (n=45，共享入口点)
有微调	标准 SFT （基线）	演示条件微调（计划中）

右下角的单元格是 OpenAdapt 的独特价值：训练模型使用它们未曾见过的演示，将检索与微调相结合以实现最高准确率。第二阶段（仅检索提示）已验证；第三阶段（演示条件微调）正在进行中。

已验证结果：在一个受控的 macOS 基准测试（45 个共享共同导航入口点的系统设置任务）中，演示条件提示将首次操作准确率从 46.7% 提升至 100%。长度匹配的对照组（仅提升 11.1 个百分点）证实了这种益处是语义上的，而非令牌长度所致。有关方法论，请参阅研究论文；有关局限性，请参阅发布路线图。

行业验证：OpenCUA（NeurIPS 2025 Spotlight，XLANG 实验室）在其 AgentNetTool 中复用了 OpenAdapt 的 macOS 无障碍访问捕获代码，但仅将演示用于模型训练——而非运行时条件化。目前没有开源 CUA 框架实现演示条件推理，这仍然是 OpenAdapt 的架构差异化优势。

关键概念

策略/定位分离：策略决定做什么；定位决定在哪里做
安全门控：操作执行前的运行时验证层（高风险操作需确认模式）
抽象阶梯：从字面回放到目标级自动化的渐进式泛化
评估驱动反馈：成功的轨迹成为新的训练数据

术语

术语	描述
观察	智能体感知到的内容（屏幕截图、无障碍访问树）
操作	智能体执行的动作（点击、输入、滚动等）
轨迹	观察-操作对的序列
演示	人类提供的示例轨迹
策略	将观察映射到操作的决策组件
定位	将意图映射到特定 UI 元素（坐标）

演示

旧版本（v0.46.0）示例：
- Twitter 演示 - 早期 OpenAdapt 演示
- Loom 视频 - 流程自动化演练

注意：这些演示展示的是旧的单体架构版本。有关当前 v1.0+ 模块化架构的示例，请参阅文档。

权限

macOS： 授予终端辅助功能、屏幕录制和输入监控权限。参见权限指南。

Windows： 如果需要输入捕获，请以管理员身份运行。

旧版本

单体架构的 OpenAdapt 代码库（v0.46.0）保存在 legacy/ 目录中。

使用旧版本：

pip install openadapt==0.46.0

迁移指南和详细信息请参阅 docs/LEGACY_FREEZE.md。

贡献

加入 Discord
从相关的子包代码库中挑选一个议题
提交 PR

对于子包开发：

git clone https://github.com/OpenAdaptAI/openadapt-ml  # 或其他子包
cd openadapt-ml
pip install -e ".[dev]"

支持

Discord： https://discord.gg/yF527cQbDG
问题： 请使用相关的子包代码库
架构文档： GitHub Wiki

许可证

MIT 许可证 - 详情请参阅 LICENSE。

项目地址：https://github.com/OpenAdaptAI/OpenAdapt

12 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

OpenAdapt — 让 AI 学会观察并自动执行桌面操作