当大模型逐步承担“认知外包”的角色,教育与人才评估体系正面临一个核心问题:如何衡量那些无法被标准答案定义的能力?例如协作、创造力与批判性思维——这些在 AI 时代愈发关键的“持久技能”(durable skills),却长期缺乏可规模化、可重复的测评方法。
Google Research 最新提出的 Vantage,尝试用大语言模型(LLM)本身来解决这一问题:用 AI 构建动态交互环境,再用 AI 评估人类在其中的行为表现。这不仅是教育评估的创新,也为 Agent 系统、多人协作 AI 场景提供了新的技术范式。
传统测评体系擅长评估“知识掌握”,例如:
但在真实工作与复杂系统中,更重要的是:
问题在于,这些能力高度依赖上下文与互动过程,难以通过选择题或固定脚本评估。
此前如 PISA 2015 的协作问题解决测试,采用“脚本化队友 + 标准化选项”的方式,虽然保证了可比性,但牺牲了真实交互的复杂性。Vantage 的核心目标,正是解决这一“真实性 vs 可测性”的矛盾。
Vantage 的关键设计不是简单使用多个 AI 角色,而是引入一个“执行型 LLM”(execution LLM)作为统一调度器,其职责包括:
这与常见的 multi-agent 架构形成对比:
这种设计带来的一个直接优势是:对话可以被“刻意设计”来触发特定能力表现。
例如,在测试冲突解决能力时,系统可以主动引入分歧:
这本质上是一种“可控复杂环境生成”(controlled environment generation),类似强化学习中的情境构造(environment shaping)。
在实验中,研究团队组织了 188 名参与者(18–25 岁),每人完成约 30 分钟的协作任务,与多个 AI 角色互动,共收集 373 份对话记录。
评估流程分为两层:
1. 行为采集层
记录完整对话,包括:
2. 评分层(Human + AI)
- 由人类专家(如教育研究人员)进行评分
- 同时使用 AI 评估模型进行自动打分
结果显示,AI 评分与人类评审之间具有较高一致性,尤其在以下维度:
这意味着:LLM 不仅可以生成评测环境,也可以成为评分器(evaluator)的一部分。
Vantage 的价值不仅在教育领域,更在于其对 AI 系统设计的启发:
1. 从“生成任务”到“生成环境”
传统 LLM 应用聚焦于生成答案,而 Vantage 展示了另一种路径:生成交互环境,让用户在其中“表现能力”。
2. Orchestrator 模式的潜力
执行型 LLM 类似一个“中央调度 Agent”,在多角色系统中保持一致性与目标导向,这对复杂 Agent 系统(如软件开发协作、企业决策模拟)具有参考价值。
3. 行为级评估(behavioral evaluation)
相比静态 benchmark,基于对话与行为轨迹的评估更接近真实应用场景,也更难被“刷分”或过拟合。
尽管 Vantage 在实验中表现出良好效果,但仍面临几个关键挑战:
1. 模拟环境是否足够真实
即便 LLM 能生成复杂对话,其行为模式仍可能带有模型偏差(model bias),影响评估结果。
2. 评分标准的主观性
创造力与批判性思维本身难以完全量化,即便是人类评审之间也可能存在分歧。
3. 可扩展性与成本
长时间对话(30 分钟级)意味着较高推理成本,对大规模教育应用提出挑战。
对于关注大模型与 Agent 的开发者,Vantage 提供了几个值得关注的方向:
1. LLM 正在成为“系统控制器”而非单一工具
从 prompt-driven 到 orchestration-driven,模型角色正在上移。
2. 多 Agent 系统需要“全局一致性机制”
单纯堆叠多个 Agent,往往会导致行为发散,统一调度成为关键。
3. 评估体系本身需要被 AI 重构
无论是教育、招聘还是开发者工具,未来的评测可能从“结果评分”转向“过程理解”。
Vantage 的意义,不只是提供了一种新的测评工具,而是提出了一个更深层的问题:当 AI 能够构建环境、引导行为并进行评估,人类能力的定义与测量方式将被重新书写。
在大模型逐步成为“协作对象”的今天,评估一个人是否优秀,或许不再取决于他能否给出正确答案,而是——他如何与智能系统共同思考、博弈与创造。