OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  社区  ›  Skills

Claude 官方 Skill-Creator 深度解析:Anthropic 的 Skill 工程化体系

 
  dash ·  2026-03-09 23:41:07 · 5 次点击  · 0 条评论  

随着 Agent 技术的发展,Anthropic 为 Claude 推出了 Agent Skills 机制,允许开发者为模型添加结构化能力。为了让 Skill 的开发更加工程化,Anthropic 又开源了一个核心工具 —— skill-creator

Skill-Creator 并不是一个简单的模板生成器,而是一套 完整的 Skill 研发系统
它将传统软件工程中的 测试、评估、迭代优化流程 引入到 AI Skill 的开发中。

本文基于 Anthropic 官方 skill-creator 源码(2026-03-07 版本)以及官方技术博客,对其架构与工程设计进行系统分析。


一、Skill-Creator 的核心定位

Skill-Creator 是一个 Meta-Skill(元技能)

也就是说,它本身就是一个 Skill,但作用是:

创建、测试、评估和优化其他 Skill。

这一设计体现了 Agent 系统的一个关键能力:自举(Bootstrapping)

Claude 可以通过 Skill-Creator:

  • 创建新的 Skill
  • 运行评估测试
  • 对比不同版本
  • 自动改进 Skill 描述
  • 最终打包发布

因此 Skill-Creator 本质上是一个 Skill 工程化平台


二、Skill 开发的核心问题

Anthropic 在官方文档中指出一个关键现实:

大多数 Skill 作者是领域专家,而不是工程师。

传统方式下,开发 Skill 往往只是编写一个 SKILL.md 文件。但这种方式存在几个问题:

1. Skill 是否真的提升模型能力

很多 Skill 看似有效,但实际上对结果质量没有提升。

2. Skill 是否在正确场景被触发

Claude 往往倾向于 欠触发(under-trigger),即有 Skill 但不使用。

3. Skill 是否会随着模型升级而失效

某些 Skill 只是弥补模型能力不足,当模型升级后可能变得多余。

Skill-Creator 的设计目标,就是通过工程化流程解决这些问题。


三、Skill 的两种类型

Anthropic 将 Skill 分为两类:

1 能力提升型(Capability Uplift)

让模型获得 原本无法稳定完成的能力

例如:

  • 特定技术文档生成
  • 复杂代码审计流程
  • 特定数据分析方法

这种 Skill 的特点是:

  • 对模型能力有补充作用
  • 但可能随模型升级而过时

2 偏好编码型(Encoded Preference)

组织工作流程 编码为 Skill。

例如:

  • NDA 审查流程
  • 内部报告生成规范
  • 合规审查步骤

这种 Skill 更像 组织经验的结构化表达

它们不会因模型能力提升而失效,但需要持续验证是否符合团队流程。


四、Skill-Creator 的整体架构

Skill-Creator 的系统架构可以分为三个核心模块。

用户
  │
  ▼
Skill-Creator
  │
  ├─ 创建模块
  │   ├ 意图捕获
  │   ├ 面试式需求调研
  │   └ SKILL.md 生成
  │
  ├─ 评测模块
  │   ├ 并行测试
  │   ├ 评分系统
  │   └ 基准统计
  │
  └─ 优化模块
      ├ 描述优化
      ├ 盲比较
      └ 迭代改进

在实现层面,系统主要由 三个子 Agent 完成核心任务:

Agent 职责
Grader 评分与断言验证
Comparator A/B 盲比较
Analyzer 结果模式分析

这种设计实际上是一个 多 Agent 评估系统


五、Skill 的三层加载机制

所有 Claude Skill 都遵循 Progressive Disclosure(渐进式加载) 设计。

系统分为三个加载层级:

层级 内容 加载时机
Level 1 Skill metadata 始终加载
Level 2 SKILL.md 指令 Skill 触发时
Level 3 scripts / references 按需加载

这一设计的主要目标是 降低上下文 token 消耗

例如:

  • SKILL.md 推荐不超过 500 行
  • 复杂逻辑可以放到 scripts/ 中执行
  • 大量参考资料放到 references/

六、核心文件结构

Skill-Creator 的仓库结构如下:

skill-creator/
│
├── SKILL.md
├── agents/
│   ├ grader.md
│   ├ comparator.md
│   └ analyzer.md
│
├── scripts/
│   ├ run_eval.py
│   ├ run_loop.py
│   ├ aggregate_benchmark.py
│   └ improve_description.py
│
├── eval-viewer/
│   └ generate_review.py
│
└── references/

其中最关键的是三个组件:

  • SKILL.md:Skill 定义
  • scripts/:自动化评测工具
  • agents/:评分与分析 Agent

七、Skill 开发的工程流程

Skill-Creator 将 Skill 开发流程标准化为一个循环:

Draft
 ↓
Test
 ↓
Evaluate
 ↓
Human Review
 ↓
Improve
 ↓
Repeat

具体步骤包括:

  1. 编写 Skill 草稿
  2. 创建测试用例
  3. 并行运行 with-skill / baseline
  4. Grader 自动评分
  5. Analyzer 生成分析报告
  6. 人工审核结果
  7. 改进 Skill

这种流程类似于 机器学习模型训练循环


八、触发机制优化

Skill 是否被 Claude 使用,主要取决于 description 字段

因此 Skill-Creator 提供了专门的 触发优化系统

优化流程包括:

1 生成 20 条测试查询

其中:

  • 8-10 条应该触发
  • 8-10 条不应该触发

2 运行触发评测

每条查询默认执行 3 次,计算触发率。

3 自动改进描述

通过 Claude 生成新的 description。

4 Train / Test split

评估集默认:

60% 训练集
40% 测试集

系统只允许优化模型看到训练集结果,以避免过拟合。


九、最关键的工程设计:Blinded History

Skill-Creator 中最精妙的设计之一,是 Blinded History 机制

在自动优化 description 时:

  • Claude 只能看到 训练集结果
  • 完全看不到 测试集结果

代码逻辑:

history_without_test_scores

优化模型无法知道测试分数,因此无法针对测试集进行优化。

最终系统只使用 测试集结果选择最佳版本

这与机器学习中的 训练 / 测试隔离原则完全一致。


十、评估体系设计

Skill-Creator 的评估体系包含三个层次。


1 Grader Agent

负责自动评分。

评分原则:

  • 必须有证据
  • 不确定默认 FAIL
  • 不能仅验证表面合规

例如:

弱断言

文件存在

强断言

CSV 文件包含 100 条记录

2 Comparator Agent

进行 盲比较

系统会隐藏输出来源,只标记为:

Output A
Output B

评分维度包括:

内容质量:

  • 正确性
  • 完整性
  • 准确性

结构质量:

  • 组织性
  • 可读性
  • 可用性

3 Analyzer Agent

负责分析评估结果。

有两种模式:

Post-hoc analysis

分析哪个 Skill 更好,并提出改进建议。

Benchmark analysis

分析评测模式,例如:

  • 高方差测试
  • 无区分力断言
  • 成本差异

十一、Skill-Creator 的工程价值

从架构上看,Skill-Creator 实际上是一个 AI能力工程平台

它解决了三个关键问题:

能力验证

Skill 是否真的有效。

触发验证

Skill 是否在正确场景被调用。

版本演化

Skill 是否仍然有价值。

这种方法使 Skill 从 Prompt 技巧 升级为 工程化资产


十二、企业落地的关键建议

如果企业希望构建 Skill 体系,可以借鉴 Skill-Creator 的设计。

建议至少建立四个角色:

角色 职责
Skill Owner 定义业务需求
Skill Engineer 实现 Skill
Evaluator 评测与反馈
Governance 安全审查

Skill 发布前建议满足三个指标:

质量提升

pass_rate(skill) − pass_rate(baseline) > 0

触发准确率

should-trigger 与 should-not-trigger 达到目标。

成本控制

token / 执行时间在可接受范围。


结语

Skill-Creator 展示了一种新的 AI 工程方法:

把 Prompt 与 Skill 开发,转化为可测试、可评估、可迭代的工程体系。

在未来的 Agent 生态中,Skill 很可能会像:

  • API
  • 微服务
  • 插件

一样成为 AI 系统的重要组成部分。

而 Skill-Creator 所代表的 Skill Engineering 方法论,可能会成为构建 Agent 平台的核心基础设施之一。

5 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor