当大模型逐步迈向“可执行任务”的 Agent 形态,训练数据的类型也在发生根本变化。最新动向显示,Meta 正在将内部员工的键盘输入与鼠标操作纳入数据采集范围,用于训练能够“理解并操作计算机”的 AI 模型。
这一策略标志着一个关键转向:从文本与代码数据,走向“真实人机交互行为数据”,为下一代计算机操作型 Agent 打基础。
Meta 的目标非常明确:构建可以帮助用户完成日常计算机任务的智能体。这类系统不仅需要“理解指令”,还必须“执行操作”。
而执行能力的核心,在于对以下行为的建模:
鼠标移动轨迹(cursor trajectory)
点击与拖拽行为(click / drag events)
键盘输入模式(keystroke patterns)
UI 导航路径(menu traversal)
这些数据本质上构成了“人类如何使用计算机”的低层行为表示。
相比传统训练数据:
文本 → 表达意图
代码 → 描述逻辑
行为数据 → 展示执行过程
这类数据为模型提供了“从意图到操作”的关键桥梁。
当前 AI Agent 的一个核心瓶颈在于:
模型知道“要做什么”,但不一定知道“怎么在系统里做”。
例如:
打开某个应用
在网页中找到按钮并点击
填写复杂表单
在多个窗口之间切换任务
这些任务在传统自动化中依赖规则或脚本(如 RPA),而在 AI Agent 中,则需要模型具备:
UI 理解能力(visual grounding)
操作序列生成能力(action sequencing)
状态感知能力(state tracking)
Meta 收集的键鼠数据,正是用于训练这些能力。
Meta 的这一方向,与整个行业的演进高度一致:
RPA(Robotic Process Automation)
基于规则与脚本
对环境变化敏感
LLM + 多模态模型
基于语义理解与动态决策
能适应复杂 UI 与非结构化环境
键盘与鼠标数据,类似于为模型提供“示范学习”(imitation learning)的素材,使其能够模仿人类操作路径。
根据披露,Meta 将通过内部工具采集员工在特定应用中的操作数据,包括:
鼠标移动与点击
键盘输入
UI 交互路径
并强调:
数据采集范围受限于特定应用
敏感信息会被保护
数据仅用于模型训练
这种“内部数据闭环”模式,与当前 AI 公司常见策略一致:
优先在可控环境中获取高质量数据
再逐步扩展至更广泛场景
尽管这一方向前景明确,但从工程角度看,挑战同样显著:
如何将连续的鼠标轨迹与离散点击事件编码为模型可理解的序列?
操作行为必须与 UI 状态、视觉信息同步,否则难以理解“为何点击”。
不同应用界面差异巨大,模型如何从有限样本中学习通用策略?
真实用户操作包含大量无效或重复行为,需要清洗与抽象。
这些问题意味着,键鼠数据只是起点,仍需结合:
屏幕视觉输入(screenshot / video)
结构化 UI 信息(DOM / accessibility tree)
高层任务描述(task instruction)
才能形成完整训练体系。
一旦这一能力成熟,其应用范围将远超当前 AI 助手:
自动完成复杂 IDE 操作
调试与测试流程自动化
自动生成与填写文档
跨系统数据录入
自动执行网页任务
模拟真实用户行为
控制应用、文件与系统设置
实现“自然语言 → 系统操作”
这实际上是在逼近一个长期目标:通用计算机操作模型(General Computer-Use Model)。
这一策略也不可避免地引发隐私讨论:
键盘输入可能包含敏感信息
操作路径可能暴露工作内容
行为数据比文本更具个人特征
尽管 Meta 表示已采取保护措施,但在更大规模应用时,仍需解决:
数据脱敏与匿名化
用户授权机制
数据使用透明度
在 AI 时代,“行为数据”正在成为比文本更敏感的资源。
Meta 的这一动作释放出几个重要信号:
模型不再只学习语言,而是学习“行动”。
文本、视觉、操作数据缺一不可。
高质量行为数据将成为稀缺资源。
从应用工具升级为“计算机控制层”。
如果说过去的大模型学会了“说话”和“写代码”,那么下一阶段,它们需要学会的是:
如何像人类一样使用计算机。
Meta 的这一尝试,正是朝这一方向迈出的关键一步。随着行为数据、视觉理解与语言模型的融合,AI Agent 可能不再只是助手,而是成为真正的“数字操作者”。
而这,也将重新定义软件、人机交互乃至整个计算生态的边界。