OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

OA0 › 代码 › Self-Operating Computer — 让 AI 直接操作电脑界面的实验项目

Self-Operating Computer — 让 AI 直接操作电脑界面的实验项目

victory · 2026-06-19 11:00:17 · 17 次点击 · 0 条评论

自操作计算机框架

赋能多模态模型操作计算机的框架。

该框架使用与人类操作员相同的输入和输出方式，模型通过查看屏幕并决定一系列鼠标和键盘操作来达成目标。自操作计算机框架于2023年11月发布，是首批实现完整计算机操作的示例之一。

关键特性

兼容性：专为多种多模态模型设计。
集成：目前已集成 GPT-4o、GPT-4.1、o1、Gemini Pro Vision、Claude 3、Qwen-VL 和 LLaVa。
未来计划：支持更多模型。

演示

https://github.com/OthersideAI/self-operating-computer/assets/42594239/9e8abc96-c76a-46fb-9b13-03678b3c67e0

运行 `自操作计算机`

安装项目

pip install self-operating-computer

运行项目

operate

输入你的 OpenAI 密钥：如果没有，可以在此处获取 OpenAI 密钥。之后如需更改密钥，请运行 vim .env 打开 .env 文件并替换旧密钥。

为终端应用授予必要权限：最后一步，终端应用会请求“屏幕录制”和“辅助功能”权限。请在 Mac 的“系统偏好设置”>“安全性与隐私”中授予权限。

使用 `operate` 模式

OpenAI 模型

项目的默认模型是 gpt-4o，只需输入 operate 即可使用。要尝试运行 OpenAI 新的 o1 模型，请使用以下命令。

operate -m o1-with-ocr

要体验 OpenAI 最新的 gpt-4.1 模型，请运行：

operate -m gpt-4.1-with-ocr

多模态模型 `-m`

尝试 Google 的 gemini-pro-vision 请遵循以下说明。使用 Gemini 模型启动 operate：

operate -m gemini-pro-vision

当终端提示时，输入你的 Google AI Studio API 密钥。 如果没有，请在设置 Google AI Studio 账户后在此获取密钥。你可能还需要为桌面应用授权凭据。我花了一些时间才让它正常工作，如果有人知道更简单的方法，请提交 PR。

尝试 Claude `-m claude-3`

使用 Claude 3 with Vision 来对比其与 GPT-4-Vision 在操作计算机方面的表现。前往 Claude 仪表板获取 API 密钥，然后运行以下命令进行尝试。

operate -m claude-3

尝试 Qwen `-m qwen-vl`

使用 Qwen-vl with Vision 来对比其与 GPT-4-Vision 在操作计算机方面的表现。前往 Qwen 仪表板获取 API 密钥，然后运行以下命令进行尝试。

operate -m qwen-vl

通过 Ollama 尝试 LLaVa `-m llava`

如果你想在自己的机器上使用 LLaVA 试验自操作计算机框架，可以借助 Ollama！
注意：Ollama 目前仅支持 MacOS 和 Linux。Windows 版本目前处于预览阶段。

首先，从 https://ollama.ai/download 在你的机器上安装 Ollama。

安装完成后，拉取 LLaVA 模型：

ollama pull llava

这会将模型下载到你的机器上，大约需要 5 GB 的存储空间。

当 Ollama 完成拉取 LLaVA 后，启动服务器：

ollama serve

就这样！现在启动 operate 并选择 LLaVA 模型：

operate -m llava

重要提示： 使用 LLaVA 时的错误率非常高。这仅作为未来本地多模态模型改进时的基础。

在 GitHub 仓库了解更多关于 Ollama 的信息。

语音模式 `--voice`

该框架支持用语音输入目标。请遵循以下说明尝试语音模式。
将仓库克隆到你的计算机目录：

git clone https://github.com/OthersideAI/self-operating-computer.git

进入目录：

cd self-operating-computer

安装额外的 requirements-audio.txt 依赖：

pip install -r requirements-audio.txt

安装设备依赖
对于 Mac 用户：

brew install portaudio

对于 Linux 用户：

sudo apt install portaudio19-dev python3-pyaudio

以语音模式运行：

operate --voice

光学字符识别模式 `-m gpt-4-with-ocr`

自操作计算机框架现在集成了光学字符识别（OCR）功能，与 gpt-4-with-ocr 模式配合使用。此模式为 GPT-4 提供按坐标划分的可点击元素哈希映射。GPT-4 可以决定通过文本 点击 元素，然后代码引用哈希映射获取 GPT-4 想要点击的元素的坐标。

根据最近的测试，OCR 模式优于 som 和普通 GPT-4，因此我们将其设为项目的默认模式。要使用 OCR 模式，只需输入：

operate 或 operate -m gpt-4-with-ocr 均可。

标记提示模式 `-m gpt-4-with-som`

自操作计算机框架现在支持使用 gpt-4-with-som 命令的标记提示（SoM）模式。这种新的视觉提示方法增强了大型多模态模型的视觉定位能力。

在详细的 arXiv 论文中了解更多关于 SoM 提示的信息：此处。

对于这个初始版本，训练了一个简单的 YOLOv8 模型用于按钮检测，best.pt 文件包含在 model/weights/ 目录下。鼓励用户替换自己的 best.pt 文件来评估性能改进。如果你的模型优于现有模型，请通过创建拉取请求（PR）进行贡献。

使用 SoM 模型启动 operate：

operate -m gpt-4-with-som

欢迎贡献！

如果你想自己贡献，请参阅 CONTRIBUTING.md。

反馈

如果对这个项目的改进有任何建议，请随时在 Twitter 上联系 Josh。

加入我们的 Discord 社区

如需实时讨论和社区支持，请加入我们的 Discord 服务器。
- 如果你已经是成员，请在 #self-operating-computer 参与讨论。
- 如果你是新手，请先加入我们的 Discord 服务器，然后导航到 #self-operating-computer。

关注 HyperWriteAI 获取更多更新

随时了解最新动态：
- 在 Twitter 上关注 HyperWriteAI。
- 在 LinkedIn 上关注 HyperWriteAI。

兼容性

该项目兼容 Mac OS、Windows 和 Linux（需安装 X 服务器）。

OpenAI 速率限制说明

需要使用 gpt-4o 模型。要解锁对该模型的访问，你的账户需要至少花费 5 美元的 API 额度。如果你尚未达到最低 5 美元的消费，预支付这些额度将解锁访问权限。
了解更多信息，请 点击这里。

项目地址：https://github.com/OthersideAI/self-operating-computer

17 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

Self-Operating Computer — 让 AI 直接操作电脑界面的实验项目

自操作计算机框架

关键特性

演示

运行 自操作计算机

使用 operate 模式

OpenAI 模型

多模态模型 -m

尝试 Claude -m claude-3

尝试 Qwen -m qwen-vl

通过 Ollama 尝试 LLaVa -m llava

语音模式 --voice

光学字符识别模式 -m gpt-4-with-ocr

标记提示模式 -m gpt-4-with-som