OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  社区  ›  Claude

Claude Skill Creator 新增自动测试功能:Agent / Skills 开发开始走向工程化

 
  replication ·  2026-03-14 18:44:35 · 5 次点击  · 0 条评论  

Anthropic 最近为 Claude Skill Creator 更新了一项非常关键的能力:内置自动测试(Evals)
对于正在开发 Agent 或 Skills 的开发者来说,这次更新解决了一个长期困扰的问题——技能触发率(trigger rate)调优过于“玄学”

过去的 Skill 调试:基本靠反复手测

在此前的开发流程中,Skill 的触发逻辑往往难以稳定控制。
开发者即使已经实现了某个能力,例如:

  • 解析 PDF
  • 抓取网页内容
  • 自动生成总结

但在实际使用时常常会遇到两种情况:

  • 该触发的时候不触发
  • 不该触发的时候突然触发

由于缺乏系统化测试工具,开发者只能通过反复手动测试进行调优:
修改技能描述 → 手动尝试 → 再修改 → 再测试。
整个过程效率低且缺乏客观指标。

内置 Evals:自动测试技能触发行为

此次更新后,Skill Creator 支持为技能编写 测试提示词(test prompts),模拟真实用户可能提出的问题,并定义什么样的结果才算“正确”。

系统随后会自动运行测试并生成报告,包括:

  • 技能触发率
  • 失败用例
  • Token 消耗
  • 执行耗时

开发者可以快速看到技能在不同场景中的表现,而不再依赖反复人工测试。

并行 Agent 测试

另一个重要改进是 并行执行测试

每个测试场景都会在 独立 Agent 环境中运行,因此不会互相污染上下文。
如果开发者定义了 20 个测试场景,系统会同时运行 20 个 Agent 并行测试,很快就能得到完整结果。

这种设计大幅缩短了评估周期,使技能迭代效率明显提升。

支持 A/B 版本对比

Skill Creator 还加入了 A/B 测试能力

当开发者修改了技能描述或触发规则后,可以让系统同时测试两个版本,并由专门的 比较器 Agent 判断哪个版本表现更好。

过去这种优化往往依赖直觉或零散测试,现在可以通过 数据驱动决策

自动提供触发率优化建议

系统还会分析技能描述与测试提示词之间的关系,给出 触发率优化建议,例如:

  • 哪些描述容易导致误触发
  • 哪些提示词可能导致漏触发

官方测试数据显示,在公开测试的 6 个技能中有 5 个触发率得到了提升

Skill 开发正在走向“工程化”

这次更新的意义在于,Skill 开发开始具备工程化流程

过去调技能更像 Prompt 调参,而现在可以形成类似软件开发的流程:

  1. 编写测试场景
  2. 运行自动评估
  3. 查看数据报告
  4. 调整技能描述
  5. 再次运行测试

这种模式与 测试驱动开发(TDD) 非常接近。

当然,目前的评估仍然存在局限。
系统可以判断 是否触发、格式是否正确,但对于 内容质量(例如写作水平或创意表达)仍然难以自动评估,很多场景仍需要人工判断。

不过总体来看,这一步已经非常关键。
随着评估工具逐渐完善,Agent 与 Skill 的开发模式,正在从 Prompt 调参时代,逐步迈向 测试驱动开发时代

5 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  Ping ·   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor