在大模型能力逐渐趋同的当下,如何通过系统设计而非单点模型能力取得跃迁,正在成为 AI 工程领域的核心议题。微软最新给出的答案,是让模型“彼此协作”。
本周,微软在 Microsoft 365 Copilot 的研究型 Agent 中引入了一项名为“Critique”的更新机制:在一次完整的研究任务中,同时调用不同厂商的大模型——由 GPT 负责生成初稿,再由 Claude 扮演“审稿人”进行系统性评估与修订。这种“多模协作(multi-model collaboration)”路径,标志着 Agent 设计从“单模型驱动”向“模型编排(model orchestration)”的转变。
过去一年,大模型竞争主要集中在单模型能力的极限:更强推理、更长上下文、更低幻觉率。但在真实的复杂任务中,单一模型往往难以兼顾生成能力与批判性思维。
微软此次更新,本质上是在 Agent 内部引入“角色分工”机制:
这种设计并不只是“多模型调用”,而是将不同模型的能力特征映射到不同任务角色中,形成类似人类研究流程的工作链路。
从工程视角看,这更接近一个多节点的 Agent pipeline,而不是简单的 API fallback 或 ensemble。
微软披露的信息显示,Claude 在该流程中并非简单“润色”,而是执行接近学术评审的多维度检查,包括:
这意味着 Agent 内部开始引入“结构化批判能力”,而不仅是生成能力的延伸。
一个值得注意的细节是,微软计划让这一流程双向运行:未来不仅是 GPT → Claude,还可以是 Claude → GPT。这种对称结构,本质上是在探索“模型互审(model mutual verification)”机制。
在评估层面,微软引用了 DRACO(Deep Research Agent Comparative Optimization)基准测试的结果:多模型协作在深度研究任务中的表现,显著优于单模型执行。
这背后反映的是一个越来越清晰的趋势:
在复杂认知任务中,“多模型系统”的上限,正在超过任何单一模型。
原因并不复杂:
这与传统机器学习中的 ensemble 方法类似,但在大模型时代,其实现粒度已经从“模型输出融合”升级为“任务流程级协作”。
微软这一步,对开发者和 AI 工程体系的影响,可能比模型能力本身更深远。
过去的核心问题是如何写 prompt、调参数;现在的问题变成:
这本质上是从 Prompt Engineering 迈向 Agent Orchestration Engineering。
随着 API 成本下降和调用标准化,未来的主流架构可能是:
类似如下模式正在浮现:
planner model(任务规划) executor model(执行生成) critic model(审查纠错) 微软的“Critique”只是这一范式的早期实现。
传统 benchmark 多针对单模型输出,而多模型系统带来了新的评估挑战:
DRACO 这类基准的出现,预示着评测体系正在从“模型级”走向“系统级”。
一个有意思的变化是:微软在自家产品中,同时引入来自不同阵营的模型能力。
这意味着:
换句话说,大模型正在从“产品”变成“组件”。
如果说过去两年 AI 的主线是“让模型更聪明”,那么接下来一个阶段,很可能是“让模型更会协作”。
微软这次更新释放的信号很明确:
对于 AI 技术社区而言,这不仅是一个功能更新,更是一个方向提示:未来的突破,可能不在某个更大的模型,而在多个模型如何被组织在一起。