随着 Agent 技术的发展,Anthropic 为 Claude 推出了 Agent Skills 机制,允许开发者为模型添加结构化能力。为了让 Skill 的开发更加工程化,Anthropic 又开源了一个核心工具 —— skill-creator。
Skill-Creator 并不是一个简单的模板生成器,而是一套 完整的 Skill 研发系统。
它将传统软件工程中的 测试、评估、迭代优化流程 引入到 AI Skill 的开发中。
本文基于 Anthropic 官方 skill-creator 源码(2026-03-07 版本)以及官方技术博客,对其架构与工程设计进行系统分析。
Skill-Creator 是一个 Meta-Skill(元技能)。
也就是说,它本身就是一个 Skill,但作用是:
创建、测试、评估和优化其他 Skill。
这一设计体现了 Agent 系统的一个关键能力:自举(Bootstrapping)。
Claude 可以通过 Skill-Creator:
因此 Skill-Creator 本质上是一个 Skill 工程化平台。
Anthropic 在官方文档中指出一个关键现实:
大多数 Skill 作者是领域专家,而不是工程师。
传统方式下,开发 Skill 往往只是编写一个 SKILL.md 文件。但这种方式存在几个问题:
1. Skill 是否真的提升模型能力
很多 Skill 看似有效,但实际上对结果质量没有提升。
2. Skill 是否在正确场景被触发
Claude 往往倾向于 欠触发(under-trigger),即有 Skill 但不使用。
3. Skill 是否会随着模型升级而失效
某些 Skill 只是弥补模型能力不足,当模型升级后可能变得多余。
Skill-Creator 的设计目标,就是通过工程化流程解决这些问题。
Anthropic 将 Skill 分为两类:
让模型获得 原本无法稳定完成的能力。
例如:
这种 Skill 的特点是:
将 组织工作流程 编码为 Skill。
例如:
这种 Skill 更像 组织经验的结构化表达。
它们不会因模型能力提升而失效,但需要持续验证是否符合团队流程。
Skill-Creator 的系统架构可以分为三个核心模块。
用户
│
▼
Skill-Creator
│
├─ 创建模块
│ ├ 意图捕获
│ ├ 面试式需求调研
│ └ SKILL.md 生成
│
├─ 评测模块
│ ├ 并行测试
│ ├ 评分系统
│ └ 基准统计
│
└─ 优化模块
├ 描述优化
├ 盲比较
└ 迭代改进
在实现层面,系统主要由 三个子 Agent 完成核心任务:
| Agent | 职责 |
|---|---|
| Grader | 评分与断言验证 |
| Comparator | A/B 盲比较 |
| Analyzer | 结果模式分析 |
这种设计实际上是一个 多 Agent 评估系统。
所有 Claude Skill 都遵循 Progressive Disclosure(渐进式加载) 设计。
系统分为三个加载层级:
| 层级 | 内容 | 加载时机 |
|---|---|---|
| Level 1 | Skill metadata | 始终加载 |
| Level 2 | SKILL.md 指令 | Skill 触发时 |
| Level 3 | scripts / references | 按需加载 |
这一设计的主要目标是 降低上下文 token 消耗。
例如:
SKILL.md 推荐不超过 500 行scripts/ 中执行references/Skill-Creator 的仓库结构如下:
skill-creator/
│
├── SKILL.md
├── agents/
│ ├ grader.md
│ ├ comparator.md
│ └ analyzer.md
│
├── scripts/
│ ├ run_eval.py
│ ├ run_loop.py
│ ├ aggregate_benchmark.py
│ └ improve_description.py
│
├── eval-viewer/
│ └ generate_review.py
│
└── references/
其中最关键的是三个组件:
Skill-Creator 将 Skill 开发流程标准化为一个循环:
Draft
↓
Test
↓
Evaluate
↓
Human Review
↓
Improve
↓
Repeat
具体步骤包括:
这种流程类似于 机器学习模型训练循环。
Skill 是否被 Claude 使用,主要取决于 description 字段。
因此 Skill-Creator 提供了专门的 触发优化系统。
优化流程包括:
1 生成 20 条测试查询
其中:
2 运行触发评测
每条查询默认执行 3 次,计算触发率。
3 自动改进描述
通过 Claude 生成新的 description。
4 Train / Test split
评估集默认:
60% 训练集
40% 测试集
系统只允许优化模型看到训练集结果,以避免过拟合。
Skill-Creator 中最精妙的设计之一,是 Blinded History 机制。
在自动优化 description 时:
代码逻辑:
history_without_test_scores
优化模型无法知道测试分数,因此无法针对测试集进行优化。
最终系统只使用 测试集结果选择最佳版本。
这与机器学习中的 训练 / 测试隔离原则完全一致。
Skill-Creator 的评估体系包含三个层次。
负责自动评分。
评分原则:
例如:
弱断言
文件存在
强断言
CSV 文件包含 100 条记录
进行 盲比较。
系统会隐藏输出来源,只标记为:
Output A
Output B
评分维度包括:
内容质量:
结构质量:
负责分析评估结果。
有两种模式:
Post-hoc analysis
分析哪个 Skill 更好,并提出改进建议。
Benchmark analysis
分析评测模式,例如:
从架构上看,Skill-Creator 实际上是一个 AI能力工程平台。
它解决了三个关键问题:
能力验证
Skill 是否真的有效。
触发验证
Skill 是否在正确场景被调用。
版本演化
Skill 是否仍然有价值。
这种方法使 Skill 从 Prompt 技巧 升级为 工程化资产。
如果企业希望构建 Skill 体系,可以借鉴 Skill-Creator 的设计。
建议至少建立四个角色:
| 角色 | 职责 |
|---|---|
| Skill Owner | 定义业务需求 |
| Skill Engineer | 实现 Skill |
| Evaluator | 评测与反馈 |
| Governance | 安全审查 |
Skill 发布前建议满足三个指标:
质量提升
pass_rate(skill) − pass_rate(baseline) > 0
触发准确率
should-trigger 与 should-not-trigger 达到目标。
成本控制
token / 执行时间在可接受范围。
Skill-Creator 展示了一种新的 AI 工程方法:
把 Prompt 与 Skill 开发,转化为可测试、可评估、可迭代的工程体系。
在未来的 Agent 生态中,Skill 很可能会像:
一样成为 AI 系统的重要组成部分。
而 Skill-Creator 所代表的 Skill Engineering 方法论,可能会成为构建 Agent 平台的核心基础设施之一。