名称: skill-evaluator
描述: 使用多框架评估标准(ISO 25010、OpenSSF、Shneiderman、智能体特定启发式方法),评估 Clawdbot 技能的质量、可靠性和发布就绪度。当需要在发布前审查、审计、评估、评分或评定技能,或检查技能质量时使用。运行自动化结构检查,并指导完成 25 项标准的手动评估。
采用自动化与手动相结合的混合方法,对技能进行 25 项标准的评估。
python3 scripts/eval-skill.py /path/to/skill
python3 scripts/eval-skill.py /path/to/skill --json # 机器可读格式
python3 scripts/eval-skill.py /path/to/skill --verbose # 显示所有详细信息
检查项包括:文件结构、Frontmatter、描述质量、脚本语法、依赖项审计、凭证扫描、环境变量文档。
使用 references/rubric.md 中的评估标准,对 8 个类别(共 25 项标准)进行评分(每项 0–4 分,总分 100)。每项标准都针对不同分数级别提供了具体描述。
将 assets/EVAL-TEMPLATE.md 复制到技能目录下,命名为 EVAL.md。填入自动化检查结果和手动评分。
eval-skill.py — 获取自动化结构评分。| # | 类别 | 参考框架 | 评估标准 |
|---|---|---|---|
| 1 | 功能适用性 | ISO 25010 | 完整性、正确性、适用性 |
| 2 | 可靠性 | ISO 25010 | 容错性、错误报告、可恢复性 |
| 3 | 性能 / 上下文 | ISO 25010 + 智能体 | Token 成本、执行效率 |
| 4 | 可用性 — AI 智能体 | Shneiderman, Gerhardt-Powals | 易学性、一致性、反馈、错误预防 |
| 5 | 可用性 — 人类 | Tognazzini, Norman | 可发现性、容错性 |
| 6 | 安全性 | ISO 25010 + OpenSSF | 凭证管理、输入验证、数据安全 |
| 7 | 可维护性 | ISO 25010 | 模块化、可修改性、可测试性 |
| 8 | 智能体特定 | 新增 | 触发精确性、渐进式披露、可组合性、幂等性、逃生通道 |
| 分数范围 | 结论 | 后续行动 |
|---|---|---|
| 90–100 | 优秀 | 可放心发布 |
| 80–89 | 良好 | 可发布,注明已知问题 |
| 70–79 | 可接受 | 发布前需修复 P0 问题 |
| 60–69 | 需要改进 | 发布前需修复 P0 和 P1 问题 |
| <60 | 尚未就绪 | 需要进行重大修改 |
本评估器涵盖了安全性基础(凭证、输入验证、数据安全)。若要对开发中的技能进行彻底的安全审计,可考虑使用 SkillLens (npx skilllens scan <path>)。它能检查数据外泄、代码执行、持久化、权限绕过和提示注入等问题,与本工具的质量评估形成互补。
pip install pyyaml) — 用于自动化检查中解析 Frontmatter