OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  代码  ›  Self-Operating Computer — 让 AI 直接操作电脑界面的实验项目

Self-Operating Computer — 让 AI 直接操作电脑界面的实验项目

 
  victory ·  2026-06-19 11:00:17 · 17 次点击  · 0 条评论  

自操作计算机框架

赋能多模态模型操作计算机的框架。

该框架使用与人类操作员相同的输入和输出方式,模型通过查看屏幕并决定一系列鼠标和键盘操作来达成目标。自操作计算机框架于2023年11月发布,是首批实现完整计算机操作的示例之一。

关键特性

  • 兼容性:专为多种多模态模型设计。
  • 集成:目前已集成 GPT-4o、GPT-4.1、o1、Gemini Pro Vision、Claude 3、Qwen-VL 和 LLaVa。
  • 未来计划:支持更多模型。

演示

https://github.com/OthersideAI/self-operating-computer/assets/42594239/9e8abc96-c76a-46fb-9b13-03678b3c67e0

运行 自操作计算机

  1. 安装项目
pip install self-operating-computer
  1. 运行项目
operate
  1. 输入你的 OpenAI 密钥:如果没有,可以在此处获取 OpenAI 密钥。之后如需更改密钥,请运行 vim .env 打开 .env 文件并替换旧密钥。
  1. 为终端应用授予必要权限:最后一步,终端应用会请求“屏幕录制”和“辅助功能”权限。请在 Mac 的“系统偏好设置”>“安全性与隐私”中授予权限。

使用 operate 模式

OpenAI 模型

项目的默认模型是 gpt-4o,只需输入 operate 即可使用。要尝试运行 OpenAI 新的 o1 模型,请使用以下命令。

operate -m o1-with-ocr

要体验 OpenAI 最新的 gpt-4.1 模型,请运行:

operate -m gpt-4.1-with-ocr

多模态模型 -m

尝试 Google 的 gemini-pro-vision 请遵循以下说明。使用 Gemini 模型启动 operate

operate -m gemini-pro-vision

当终端提示时,输入你的 Google AI Studio API 密钥。 如果没有,请在设置 Google AI Studio 账户后 在此获取密钥。你可能还需要 为桌面应用授权凭据。我花了一些时间才让它正常工作,如果有人知道更简单的方法,请提交 PR。

尝试 Claude -m claude-3

使用 Claude 3 with Vision 来对比其与 GPT-4-Vision 在操作计算机方面的表现。前往 Claude 仪表板 获取 API 密钥,然后运行以下命令进行尝试。

operate -m claude-3

尝试 Qwen -m qwen-vl

使用 Qwen-vl with Vision 来对比其与 GPT-4-Vision 在操作计算机方面的表现。前往 Qwen 仪表板 获取 API 密钥,然后运行以下命令进行尝试。

operate -m qwen-vl

通过 Ollama 尝试 LLaVa -m llava

如果你想在自己的机器上使用 LLaVA 试验自操作计算机框架,可以借助 Ollama!
注意:Ollama 目前仅支持 MacOS 和 Linux。Windows 版本目前处于预览阶段。

首先,从 https://ollama.ai/download 在你的机器上安装 Ollama。

安装完成后,拉取 LLaVA 模型:

ollama pull llava

这会将模型下载到你的机器上,大约需要 5 GB 的存储空间。

当 Ollama 完成拉取 LLaVA 后,启动服务器:

ollama serve

就这样!现在启动 operate 并选择 LLaVA 模型:

operate -m llava

重要提示: 使用 LLaVA 时的错误率非常高。这仅作为未来本地多模态模型改进时的基础。

GitHub 仓库 了解更多关于 Ollama 的信息。

语音模式 --voice

该框架支持用语音输入目标。请遵循以下说明尝试语音模式。
将仓库克隆到你的计算机目录:

git clone https://github.com/OthersideAI/self-operating-computer.git

进入目录

cd self-operating-computer

安装额外的 requirements-audio.txt 依赖:

pip install -r requirements-audio.txt

安装设备依赖
对于 Mac 用户:

brew install portaudio

对于 Linux 用户:

sudo apt install portaudio19-dev python3-pyaudio

以语音模式运行:

operate --voice

光学字符识别模式 -m gpt-4-with-ocr

自操作计算机框架现在集成了光学字符识别(OCR)功能,与 gpt-4-with-ocr 模式配合使用。此模式为 GPT-4 提供按坐标划分的可点击元素哈希映射。GPT-4 可以决定通过文本 点击 元素,然后代码引用哈希映射获取 GPT-4 想要点击的元素的坐标。

根据最近的测试,OCR 模式优于 som 和普通 GPT-4,因此我们将其设为项目的默认模式。要使用 OCR 模式,只需输入:

operateoperate -m gpt-4-with-ocr 均可。

标记提示模式 -m gpt-4-with-som

自操作计算机框架现在支持使用 gpt-4-with-som 命令的标记提示(SoM)模式。这种新的视觉提示方法增强了大型多模态模型的视觉定位能力。

在详细的 arXiv 论文中了解更多关于 SoM 提示的信息:此处

对于这个初始版本,训练了一个简单的 YOLOv8 模型用于按钮检测,best.pt 文件包含在 model/weights/ 目录下。鼓励用户替换自己的 best.pt 文件来评估性能改进。如果你的模型优于现有模型,请通过创建拉取请求(PR)进行贡献。

使用 SoM 模型启动 operate

operate -m gpt-4-with-som

欢迎贡献!

如果你想自己贡献,请参阅 CONTRIBUTING.md

反馈

如果对这个项目的改进有任何建议,请随时在 Twitter 上联系 Josh

加入我们的 Discord 社区

如需实时讨论和社区支持,请加入我们的 Discord 服务器。
- 如果你已经是成员,请在 #self-operating-computer 参与讨论。
- 如果你是新手,请先 加入我们的 Discord 服务器,然后导航到 #self-operating-computer

关注 HyperWriteAI 获取更多更新

随时了解最新动态:
- 在 Twitter 上关注 HyperWriteAI。
- 在 LinkedIn 上关注 HyperWriteAI。

兼容性

  • 该项目兼容 Mac OS、Windows 和 Linux(需安装 X 服务器)。

OpenAI 速率限制说明

需要使用 gpt-4o 模型。要解锁对该模型的访问,你的账户需要至少花费 5 美元的 API 额度。如果你尚未达到最低 5 美元的消费,预支付这些额度将解锁访问权限。
了解更多信息,请 点击这里

17 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 22 ms
Developed with Cursor