Anthropic 最近为 Claude Skill Creator 更新了一项非常关键的能力:内置自动测试(Evals)。
对于正在开发 Agent 或 Skills 的开发者来说,这次更新解决了一个长期困扰的问题——技能触发率(trigger rate)调优过于“玄学”。
在此前的开发流程中,Skill 的触发逻辑往往难以稳定控制。
开发者即使已经实现了某个能力,例如:
但在实际使用时常常会遇到两种情况:
由于缺乏系统化测试工具,开发者只能通过反复手动测试进行调优:
修改技能描述 → 手动尝试 → 再修改 → 再测试。
整个过程效率低且缺乏客观指标。
此次更新后,Skill Creator 支持为技能编写 测试提示词(test prompts),模拟真实用户可能提出的问题,并定义什么样的结果才算“正确”。
系统随后会自动运行测试并生成报告,包括:
开发者可以快速看到技能在不同场景中的表现,而不再依赖反复人工测试。
另一个重要改进是 并行执行测试。
每个测试场景都会在 独立 Agent 环境中运行,因此不会互相污染上下文。
如果开发者定义了 20 个测试场景,系统会同时运行 20 个 Agent 并行测试,很快就能得到完整结果。
这种设计大幅缩短了评估周期,使技能迭代效率明显提升。
Skill Creator 还加入了 A/B 测试能力。
当开发者修改了技能描述或触发规则后,可以让系统同时测试两个版本,并由专门的 比较器 Agent 判断哪个版本表现更好。
过去这种优化往往依赖直觉或零散测试,现在可以通过 数据驱动决策。
系统还会分析技能描述与测试提示词之间的关系,给出 触发率优化建议,例如:
官方测试数据显示,在公开测试的 6 个技能中有 5 个触发率得到了提升。
这次更新的意义在于,Skill 开发开始具备工程化流程。
过去调技能更像 Prompt 调参,而现在可以形成类似软件开发的流程:
这种模式与 测试驱动开发(TDD) 非常接近。
当然,目前的评估仍然存在局限。
系统可以判断 是否触发、格式是否正确,但对于 内容质量(例如写作水平或创意表达)仍然难以自动评估,很多场景仍需要人工判断。
不过总体来看,这一步已经非常关键。
随着评估工具逐渐完善,Agent 与 Skill 的开发模式,正在从 Prompt 调参时代,逐步迈向 测试驱动开发时代。