Claude Skill Creator 新增自动测试功能：Agent / Skills 开发开始走向工程化

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

Anthropic 最近为 Claude Skill Creator 更新了一项非常关键的能力：内置自动测试（Evals）。
对于正在开发 Agent 或 Skills 的开发者来说，这次更新解决了一个长期困扰的问题——技能触发率（trigger rate）调优过于“玄学”。

过去的 Skill 调试：基本靠反复手测

在此前的开发流程中，Skill 的触发逻辑往往难以稳定控制。
开发者即使已经实现了某个能力，例如：

解析 PDF
抓取网页内容
自动生成总结

但在实际使用时常常会遇到两种情况：

该触发的时候不触发
不该触发的时候突然触发

由于缺乏系统化测试工具，开发者只能通过反复手动测试进行调优：
修改技能描述 → 手动尝试 → 再修改 → 再测试。
整个过程效率低且缺乏客观指标。

内置 Evals：自动测试技能触发行为

此次更新后，Skill Creator 支持为技能编写 测试提示词（test prompts），模拟真实用户可能提出的问题，并定义什么样的结果才算“正确”。

系统随后会自动运行测试并生成报告，包括：

技能触发率
失败用例
Token 消耗
执行耗时

开发者可以快速看到技能在不同场景中的表现，而不再依赖反复人工测试。

并行 Agent 测试

另一个重要改进是 并行执行测试。

每个测试场景都会在 独立 Agent 环境中运行，因此不会互相污染上下文。
如果开发者定义了 20 个测试场景，系统会同时运行 20 个 Agent 并行测试，很快就能得到完整结果。

这种设计大幅缩短了评估周期，使技能迭代效率明显提升。

支持 A/B 版本对比

Skill Creator 还加入了 A/B 测试能力。

当开发者修改了技能描述或触发规则后，可以让系统同时测试两个版本，并由专门的 比较器 Agent 判断哪个版本表现更好。

过去这种优化往往依赖直觉或零散测试，现在可以通过 数据驱动决策。

自动提供触发率优化建议

系统还会分析技能描述与测试提示词之间的关系，给出 触发率优化建议，例如：

哪些描述容易导致误触发
哪些提示词可能导致漏触发

官方测试数据显示，在公开测试的 6 个技能中有 5 个触发率得到了提升。

Skill 开发正在走向“工程化”

这次更新的意义在于，Skill 开发开始具备工程化流程。

过去调技能更像 Prompt 调参，而现在可以形成类似软件开发的流程：

编写测试场景
运行自动评估
查看数据报告
调整技能描述
再次运行测试

这种模式与 测试驱动开发（TDD） 非常接近。

当然，目前的评估仍然存在局限。
系统可以判断 是否触发、格式是否正确，但对于 内容质量（例如写作水平或创意表达）仍然难以自动评估，很多场景仍需要人工判断。

不过总体来看，这一步已经非常关键。
随着评估工具逐渐完善，Agent 与 Skill 的开发模式，正在从 Prompt 调参时代，逐步迈向 测试驱动开发时代。

40 次点击 ∙ 0 人收藏

登录后收藏

0 条回复