在生成式 AI 进入“工程化深水区”的当下,数据早已不再局限于公开语料或标注集。企业内部的工作流、操作轨迹,正成为下一阶段模型竞争的关键资源。近期,马克·扎克伯格 在一次内部全员会议上的表态,将这一趋势推向台前:Meta 正通过系统性采集员工计算机操作行为,为其 AI 模型训练提供高质量数据来源。
这一策略的核心不只是“监控”,而是将组织内部的知识生产过程,转化为可训练、可复用的模型能力。
Meta 内部推出的“模型能力倡议”(后更名为“智能体转型加速器”),本质上是一套细粒度行为采集系统。其覆盖范围包括鼠标移动、键盘输入、快捷键调用乃至屏幕操作路径。
在传统软件工程语境中,这类数据通常用于审计或效率分析;但在大模型时代,它们具备了新的价值:
换句话说,Meta 正在把“人如何工作”,转化为“AI 如何工作的训练样本”。
这一策略与当前 Agent 技术演进路径高度契合。
在以 GPT-4/Claude 为代表的通用模型之后,行业逐步进入 Agent 化阶段:模型不仅生成文本,还需要执行任务、调用工具、完成复杂流程。在这一过程中,训练数据的形态发生了明显变化:
Andrew Bosworth 在同一场会议中描述的未来图景是:AI Agent 将承担绝大多数执行工作,人类主要负责指令制定与结果审核。
这意味着,企业正在构建一种新的数据飞轮:
在这个循环中,人类既是生产者,也是“被蒸馏”的对象。
相比依赖外包数据或公开语料,这种“内部行为数据”路径有几个显著优势:
外包数据往往脱离真实业务语境,而内部数据天然贴合公司实际需求,例如代码开发、广告投放、内容审核等。
内部员工(尤其是工程师、产品经理等)的操作路径,通常隐含最优或近似最优策略,这种“弱标签”质量远高于众包标注。
数据采集、模型训练、应用部署全部发生在同一组织内部,形成完整的反馈闭环,迭代速度更快。
这也解释了扎克伯格强调的一点:公司员工的“平均智力水平”,本身就是一种数据资产。
不过,这种模式同样引发了新的技术与伦理问题:
从 AI 工程视角看,这其实是“人类在环(Human-in-the-loop)”的一种极端形式——人类不仅参与训练,还在持续提供高质量示范数据,直至被系统部分替代。
Meta 的这一实践,可能预示着下一阶段 AI 基础设施的演进方向:
未来的数据 pipeline 不再只是 ETL + 标注,而是包括:
企业内部的 SaaS、IDE、协作工具,将逐步演化为数据采集入口,而不仅是生产力工具。
相比昂贵的人工标注,基于行为日志的训练方式,更接近一种可扩展的弱监督学习路径。
从更宏观的角度看,这不仅是 Meta 的一次内部实验,而是 AI 产业正在发生的一次关键转向:数据的边界正在从“互联网内容”,扩展到“人类工作本身”。
当企业开始系统性地“学习自己”,AI 的竞争也将不再只是模型参数规模或算力,而是——谁能更高效地将组织经验转化为机器能力。