OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
OA0  ›  技能包  ›  desktop-control:具备鼠标、键盘模拟功能的进阶桌面自动化控制

desktop-control:具备鼠标、键盘模拟功能的进阶桌面自动化控制

 
  transaction ·  2026-02-16 08:51:34 · 3 次点击  · 0 条评论  

描述: 通过鼠标、键盘和屏幕控制实现高级桌面自动化

桌面控制技能

OpenClaw 最先进的桌面自动化技能。 提供像素级精确的鼠标控制、闪电般快速的键盘输入、屏幕捕获、窗口管理和剪贴板操作。

🎯 功能特性

鼠标控制

  • 绝对定位 - 移动到精确坐标
  • 相对移动 - 从当前位置移动
  • 平滑移动 - 自然、拟人的鼠标路径
  • 点击类型 - 左键、右键、中键、双击、三击
  • 拖放操作 - 从点 A 拖拽到点 B
  • 滚动 - 垂直和水平滚动
  • 位置追踪 - 获取当前鼠标坐标

键盘控制

  • 文本输入 - 快速、准确的文本输入
  • 热键 - 执行键盘快捷键(Ctrl+C、Win+R 等)
  • 特殊键 - Enter、Tab、Escape、方向键、功能键
  • 组合键 - 多键同时按下
  • 按住与释放 - 手动控制按键状态
  • 输入速度 - 可配置的每分钟字数(从即时到拟人速度)

屏幕操作

  • 屏幕截图 - 捕获整个屏幕或指定区域
  • 图像识别 - 在屏幕上查找元素(通过 OpenCV)
  • 颜色检测 - 获取坐标处的像素颜色
  • 多显示器 - 支持多个显示器

窗口管理

  • 窗口列表 - 获取所有打开的窗口
  • 激活窗口 - 将窗口置于前台
  • 窗口信息 - 获取位置、大小、标题
  • 最小化/最大化 - 控制窗口状态

安全特性

  • 安全防护 - 将鼠标移动到角落以中止操作
  • 暂停控制 - 紧急停止机制
  • 审批模式 - 执行操作前需要确认
  • 边界检查 - 防止超出屏幕的操作
  • 日志记录 - 追踪所有自动化操作

🚀 快速开始

安装

首先,安装所需的依赖项:

pip install pyautogui pillow opencv-python pygetwindow

基本用法

from skills.desktop_control import DesktopController

# 初始化控制器
dc = DesktopController(failsafe=True)

# 鼠标操作
dc.move_mouse(500, 300)  # 移动到坐标
dc.click()  # 当前位置左键点击
dc.click(100, 200, button="right")  # 指定位置右键点击

# 键盘操作
dc.type_text("来自 OpenClaw 的问候!")
dc.hotkey("ctrl", "c")  # 复制
dc.press("enter")

# 屏幕操作
screenshot = dc.screenshot()
position = dc.get_mouse_position()

📋 完整 API 参考

鼠标功能

move_mouse(x, y, duration=0, smooth=True)

将鼠标移动到绝对屏幕坐标。

参数:
- x (int): X 坐标(距离左侧的像素数)
- y (int): Y 坐标(距离顶部的像素数)
- duration (float): 移动时间(秒)(0 = 即时,0.5 = 平滑)
- smooth (bool): 使用贝塞尔曲线实现自然移动

示例:

# 即时移动
dc.move_mouse(1000, 500)

# 平滑 1 秒移动
dc.move_mouse(1000, 500, duration=1.0)

move_relative(x_offset, y_offset, duration=0)

相对于当前位置移动鼠标。

参数:
- x_offset (int): 水平移动像素数(正数 = 向右)
- y_offset (int): 垂直移动像素数(正数 = 向下)
- duration (float): 移动时间(秒)

示例:

# 向右移动 100px,向下移动 50px
dc.move_relative(100, 50, duration=0.3)

click(x=None, y=None, button='left', clicks=1, interval=0.1)

执行鼠标点击。

参数:
- x, y (int, 可选): 点击坐标(None = 当前位置)
- button (str): 'left'、'right'、'middle'
- clicks (int): 点击次数(1 = 单击,2 = 双击)
- interval (float): 多次点击之间的延迟

示例:

# 简单左键点击
dc.click()

# 指定位置双击
dc.click(500, 300, clicks=2)

# 右键点击
dc.click(button='right')

drag(start_x, start_y, end_x, end_y, duration=0.5, button='left')

拖放操作。

参数:
- start_x, start_y (int): 起始坐标
- end_x, end_y (int): 结束坐标
- duration (float): 拖拽持续时间
- button (str): 使用的鼠标按钮

示例:

# 从桌面拖拽文件到文件夹
dc.drag(100, 100, 500, 500, duration=1.0)

scroll(clicks, direction='vertical', x=None, y=None)

滚动鼠标滚轮。

参数:
- clicks (int): 滚动量(正数 = 向上/向左,负数 = 向下/向右)
- direction (str): 'vertical' 或 'horizontal'
- x, y (int, 可选): 滚动位置

示例:

# 向下滚动 5 次
dc.scroll(-5)

# 向上滚动 10 次
dc.scroll(10)

# 水平滚动
dc.scroll(5, direction='horizontal')

get_mouse_position()

获取当前鼠标坐标。

返回: (x, y) 元组

示例:

x, y = dc.get_mouse_position()
print(f"鼠标位置:{x}, {y}")

键盘功能

type_text(text, interval=0, wpm=None)

以可配置的速度输入文本。

参数:
- text (str): 要输入的文本
- interval (float): 按键之间的延迟(0 = 即时)
- wpm (int, 可选): 每分钟字数(覆盖 interval 参数)

示例:

# 即时输入
dc.type_text("Hello World")

# 以 60 WPM 的拟人速度输入
dc.type_text("Hello World", wpm=60)

# 慢速输入,按键间隔 0.1 秒
dc.type_text("Hello World", interval=0.1)

press(key, presses=1, interval=0.1)

按下并释放一个键。

参数:
- key (str): 键名(参见键名参考部分)
- presses (int): 按下次数
- interval (float): 按键之间的延迟

示例:

# 按下 Enter
dc.press('enter')

# 按下 Space 3 次
dc.press('space', presses=3)

# 按下向下箭头
dc.press('down')

hotkey(*keys, interval=0.05)

执行键盘快捷键。

参数:
- *keys (str): 要同时按下的键
- interval (float): 按键之间的延迟

示例:

# 复制 (Ctrl+C)
dc.hotkey('ctrl', 'c')

# 粘贴 (Ctrl+V)
dc.hotkey('ctrl', 'v')

# 打开运行对话框 (Win+R)
dc.hotkey('win', 'r')

# 保存 (Ctrl+S)
dc.hotkey('ctrl', 's')

# 全选 (Ctrl+A)
dc.hotkey('ctrl', 'a')

key_down(key) / key_up(key)

手动控制按键状态。

示例:

# 按住 Shift
dc.key_down('shift')
dc.type_text("hello")  # 输入 "HELLO"
dc.key_up('shift')

# 按住 Ctrl 并点击(用于多选)
dc.key_down('ctrl')
dc.click(100, 100)
dc.click(200, 100)
dc.key_up('ctrl')

屏幕功能

screenshot(region=None, filename=None)

捕获屏幕或指定区域。

参数:
- region (tuple, 可选): (left, top, width, height) 用于部分捕获
- filename (str, 可选): 保存图像的路径

返回: PIL Image 对象

示例:

# 全屏截图
img = dc.screenshot()

# 保存到文件
dc.screenshot(filename="screenshot.png")

# 捕获特定区域
img = dc.screenshot(region=(100, 100, 500, 300))

get_pixel_color(x, y)

获取坐标处的像素颜色。

返回: RGB 元组 (r, g, b)

示例:

r, g, b = dc.get_pixel_color(500, 300)
print(f"坐标 (500, 300) 处的颜色:RGB({r}, {g}, {b})")

find_on_screen(image_path, confidence=0.8)

在屏幕上查找图像(需要 OpenCV)。

参数:
- image_path (str): 模板图像的路径
- confidence (float): 匹配阈值(0-1)

返回: (x, y, width, height) 或 None

示例:

# 在屏幕上查找按钮
location = dc.find_on_screen("button.png")
if location:
    x, y, w, h = location
    # 点击找到的图像中心
    dc.click(x + w//2, y + h//2)

get_screen_size()

获取屏幕分辨率。

返回: (width, height) 元组

示例:

width, height = dc.get_screen_size()
print(f"屏幕分辨率:{width}x{height}")

窗口功能

get_all_windows()

列出所有打开的窗口。

返回: 窗口标题列表

示例:

windows = dc.get_all_windows()
for title in windows:
    print(f"窗口:{title}")

activate_window(title_substring)

通过标题将窗口置于前台。

参数:
- title_substring (str): 要匹配的窗口标题部分

示例:

# 激活 Chrome
dc.activate_window("Chrome")

# 激活 VS Code
dc.activate_window("Visual Studio Code")

get_active_window()

获取当前聚焦的窗口。

返回: 窗口标题 (str)

示例:

active = dc.get_active_window()
print(f"活动窗口:{active}")

剪贴板功能

copy_to_clipboard(text)

复制文本到剪贴板。

示例:

dc.copy_to_clipboard("来自 OpenClaw 的问候!")

get_from_clipboard()

从剪贴板获取文本。

返回: str

示例:

text = dc.get_from_clipboard()
print(f"剪贴板内容:{text}")

⌨️ 键名参考

字母键

'a''z'

数字键

'0''9'

功能键

'f1''f24'

特殊键

  • 'enter' / 'return'
  • 'esc' / 'escape'
  • 'space' / 'spacebar'
  • 'tab'
  • 'backspace'
  • 'delete' / 'del'
  • 'insert'
  • 'home'
  • 'end'
  • 'pageup' / 'pgup'
  • 'pagedown' / 'pgdn'

方向键

  • 'up' / 'down' / 'left' / 'right'

修饰键

  • 'ctrl' / 'control'
  • 'shift'
  • 'alt'
  • 'win' / 'winleft' / 'winright'
  • 'cmd' / 'command' (Mac)

锁定键

  • 'capslock'
  • 'numlock'
  • 'scrolllock'

标点符号

  • '.' / ',' / '?' / '!' / ';' / ':'
  • '[' / ']' / '{' / '}'
  • '(' / ')'
  • '+' / '-' / '*' / '/' / '='

🛡️ 安全特性

安全防护模式

将鼠标移动到屏幕的任意角落以中止所有自动化操作。

# 启用安全防护(默认启用)
dc = DesktopController(failsafe=True)

暂停控制

# 暂停所有自动化操作 2 秒
dc.pause(2.0)

# 检查自动化操作是否可以安全继续
if dc.is_safe():
    dc.click(500, 500)

审批模式

执行操作前需要用户确认:

dc = DesktopController(require_approval=True)

# 这将要求确认
dc.click(500, 500)  # 提示:"允许在 (500, 500) 处点击吗?[y/n]"

🎨 高级示例

示例 1:自动填写表单

dc = DesktopController()

# 点击姓名字段
dc.click(300, 200)
dc.type_text("张三", wpm=80)

# Tab 到下一个字段
dc.press('tab')
dc.type_text("zhangsan@example.com", wpm=80)

# Tab 到密码字段
dc.press('tab')
dc.type_text("SecurePassword123", wpm=60)

# 提交表单
dc.press('enter')

示例 2:截图区域并保存

# 捕获特定区域
region = (100, 100, 800, 600)  # left, top, width, height
img = dc.screenshot(region=region)

# 使用时间戳保存
import datetime
timestamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")
img.save(f"capture_{timestamp}.png")

示例 3:多文件选择

# 按住 Ctrl 并点击多个文件
dc.key_down('ctrl')
dc.click(100, 200)  # 第一个文件
dc.click(100, 250)  # 第二个文件
dc.click(100, 300)  # 第三个文件
dc.key_up('ctrl')

# 复制选中的文件
dc.hotkey('ctrl', 'c')

示例 4:窗口自动化

# 激活计算器
dc.activate_window("计算器")
time.sleep(0.5)

# 输入计算
dc.type_text("5+3=", interval=0.2)
time.sleep(0.5)

# 对结果截图
dc.screenshot(filename="calculation_result.png")

示例 5:拖放文件

# 将文件从源位置拖放到目标位置
dc.drag(
    start_x=200, start_y=300,  # 文件位置
    end_x=800, end_y=500,       # 文件夹位置
    duration=1.0                 # 平滑 1 秒拖拽
)

⚡ 性能优化建议

  1. 使用即时移动以提高速度:duration=0
  2. 批量操作而非单个调用
  3. 缓存屏幕位置而非重新计算
  4. 禁用安全防护以获得最大性能(谨慎使用)
  5. 使用热键而非菜单导航

⚠️ 重要注意事项

  • 屏幕坐标从左上角的 (0, 0) 开始
  • 多显示器设置中,次要显示器可能有负坐标
  • Windows DPI 缩放可能影响坐标精度
  • 安全防护角落为:(0,0)、(width-1, 0)、(0, height-1)、(width-1, height-1)
  • 某些应用程序可能阻止模拟输入(游戏、安全应用)

🔧 故障排除

鼠标未移动到正确位置

  • 检查 DPI 缩放设置
  • 验证屏幕分辨率是否符合预期
  • 使用 get_screen_size() 确认尺寸

键盘输入无效

  • 确保目标应用程序具有焦点
  • 某些应用需要管理员权限
  • 尝试增加 interval 以提高可靠性

安全防护意外触发

  • 增加屏幕边框容差
  • 正常使用时将鼠标远离角落
  • 如果需要可禁用:DesktopController(failsafe=False)

权限错误

  • 某些操作需要以管理员权限运行 Python
  • 某些安全应用程序会阻止自动化操作

📦 依赖项

  • PyAutoGUI - 核心自动化引擎
  • Pillow - 图像处理
  • OpenCV (可选) - 图像识别
  • PyGetWindow - 窗口管理

安装全部:

pip install pyautogui pillow opencv-python pygetwindow

专为 OpenClaw 构建 - 终极桌面自动化伴侣 🦞

3 次点击  ∙  0 人收藏  
登录后收藏  
目前尚无回复
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor