赋能多模态模型操作计算机的框架。
该框架使用与人类操作员相同的输入和输出方式,模型通过查看屏幕并决定一系列鼠标和键盘操作来达成目标。自操作计算机框架于2023年11月发布,是首批实现完整计算机操作的示例之一。
https://github.com/OthersideAI/self-operating-computer/assets/42594239/9e8abc96-c76a-46fb-9b13-03678b3c67e0
自操作计算机pip install self-operating-computer
operate
vim .env 打开 .env 文件并替换旧密钥。
operate 模式项目的默认模型是 gpt-4o,只需输入 operate 即可使用。要尝试运行 OpenAI 新的 o1 模型,请使用以下命令。
operate -m o1-with-ocr
要体验 OpenAI 最新的 gpt-4.1 模型,请运行:
operate -m gpt-4.1-with-ocr
-m尝试 Google 的 gemini-pro-vision 请遵循以下说明。使用 Gemini 模型启动 operate:
operate -m gemini-pro-vision
当终端提示时,输入你的 Google AI Studio API 密钥。 如果没有,请在设置 Google AI Studio 账户后 在此获取密钥。你可能还需要 为桌面应用授权凭据。我花了一些时间才让它正常工作,如果有人知道更简单的方法,请提交 PR。
-m claude-3使用 Claude 3 with Vision 来对比其与 GPT-4-Vision 在操作计算机方面的表现。前往 Claude 仪表板 获取 API 密钥,然后运行以下命令进行尝试。
operate -m claude-3
-m qwen-vl使用 Qwen-vl with Vision 来对比其与 GPT-4-Vision 在操作计算机方面的表现。前往 Qwen 仪表板 获取 API 密钥,然后运行以下命令进行尝试。
operate -m qwen-vl
-m llava如果你想在自己的机器上使用 LLaVA 试验自操作计算机框架,可以借助 Ollama!
注意:Ollama 目前仅支持 MacOS 和 Linux。Windows 版本目前处于预览阶段。
首先,从 https://ollama.ai/download 在你的机器上安装 Ollama。
安装完成后,拉取 LLaVA 模型:
ollama pull llava
这会将模型下载到你的机器上,大约需要 5 GB 的存储空间。
当 Ollama 完成拉取 LLaVA 后,启动服务器:
ollama serve
就这样!现在启动 operate 并选择 LLaVA 模型:
operate -m llava
重要提示: 使用 LLaVA 时的错误率非常高。这仅作为未来本地多模态模型改进时的基础。
在 GitHub 仓库 了解更多关于 Ollama 的信息。
--voice该框架支持用语音输入目标。请遵循以下说明尝试语音模式。
将仓库克隆到你的计算机目录:
git clone https://github.com/OthersideAI/self-operating-computer.git
进入目录:
cd self-operating-computer
安装额外的 requirements-audio.txt 依赖:
pip install -r requirements-audio.txt
安装设备依赖
对于 Mac 用户:
brew install portaudio
对于 Linux 用户:
sudo apt install portaudio19-dev python3-pyaudio
以语音模式运行:
operate --voice
-m gpt-4-with-ocr自操作计算机框架现在集成了光学字符识别(OCR)功能,与 gpt-4-with-ocr 模式配合使用。此模式为 GPT-4 提供按坐标划分的可点击元素哈希映射。GPT-4 可以决定通过文本 点击 元素,然后代码引用哈希映射获取 GPT-4 想要点击的元素的坐标。
根据最近的测试,OCR 模式优于 som 和普通 GPT-4,因此我们将其设为项目的默认模式。要使用 OCR 模式,只需输入:
operate 或 operate -m gpt-4-with-ocr 均可。
-m gpt-4-with-som自操作计算机框架现在支持使用 gpt-4-with-som 命令的标记提示(SoM)模式。这种新的视觉提示方法增强了大型多模态模型的视觉定位能力。
在详细的 arXiv 论文中了解更多关于 SoM 提示的信息:此处。
对于这个初始版本,训练了一个简单的 YOLOv8 模型用于按钮检测,best.pt 文件包含在 model/weights/ 目录下。鼓励用户替换自己的 best.pt 文件来评估性能改进。如果你的模型优于现有模型,请通过创建拉取请求(PR)进行贡献。
使用 SoM 模型启动 operate:
operate -m gpt-4-with-som
如果你想自己贡献,请参阅 CONTRIBUTING.md。
如果对这个项目的改进有任何建议,请随时在 Twitter 上联系 Josh。
如需实时讨论和社区支持,请加入我们的 Discord 服务器。
- 如果你已经是成员,请在 #self-operating-computer 参与讨论。
- 如果你是新手,请先 加入我们的 Discord 服务器,然后导航到 #self-operating-computer。
随时了解最新动态:
- 在 Twitter 上关注 HyperWriteAI。
- 在 LinkedIn 上关注 HyperWriteAI。
需要使用 gpt-4o 模型。要解锁对该模型的访问,你的账户需要至少花费 5 美元的 API 额度。如果你尚未达到最低 5 美元的消费,预支付这些额度将解锁访问权限。
了解更多信息,请 点击这里。