OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
OA0  ›  技能包  ›  skill-evaluator:对智能体技能的质量、可靠性进行全面评估

skill-evaluator:对智能体技能的质量、可靠性进行全面评估

 
  audit ·  2026-02-04 06:30:38 · 3 次点击  · 0 条评论  

名称: skill-evaluator
描述: 使用多框架评估标准(ISO 25010、OpenSSF、Shneiderman、智能体特定启发式方法),评估 Clawdbot 技能的质量、可靠性和发布就绪度。当需要在发布前审查、审计、评估、评分或评定技能,或检查技能质量时使用。运行自动化结构检查,并指导完成 25 项标准的手动评估。


技能评估器

采用自动化与手动相结合的混合方法,对技能进行 25 项标准的评估。

快速开始

1. 运行自动化检查

python3 scripts/eval-skill.py /path/to/skill
python3 scripts/eval-skill.py /path/to/skill --json    # 机器可读格式
python3 scripts/eval-skill.py /path/to/skill --verbose  # 显示所有详细信息

检查项包括:文件结构、Frontmatter、描述质量、脚本语法、依赖项审计、凭证扫描、环境变量文档。

2. 手动评估

使用 references/rubric.md 中的评估标准,对 8 个类别(共 25 项标准)进行评分(每项 0–4 分,总分 100)。每项标准都针对不同分数级别提供了具体描述。

3. 撰写评估报告

assets/EVAL-TEMPLATE.md 复制到技能目录下,命名为 EVAL.md。填入自动化检查结果和手动评分。

评估流程

  1. 运行 eval-skill.py — 获取自动化结构评分。
  2. 阅读技能的 SKILL.md — 理解其功能。
  3. 阅读/浏览脚本 — 评估代码质量、错误处理、可测试性。
  4. 使用 references/rubric.md 为每项手动标准评分 — 每个级别都有具体标准。
  5. 按优先级分类发现的问题 — P0(阻碍发布)/ P1(应修复)/ P2(锦上添花)。
  6. 在技能目录中撰写 EVAL.md — 包含评分和发现的问题。

评估类别(8 类,25 项标准)

# 类别 参考框架 评估标准
1 功能适用性 ISO 25010 完整性、正确性、适用性
2 可靠性 ISO 25010 容错性、错误报告、可恢复性
3 性能 / 上下文 ISO 25010 + 智能体 Token 成本、执行效率
4 可用性 — AI 智能体 Shneiderman, Gerhardt-Powals 易学性、一致性、反馈、错误预防
5 可用性 — 人类 Tognazzini, Norman 可发现性、容错性
6 安全性 ISO 25010 + OpenSSF 凭证管理、输入验证、数据安全
7 可维护性 ISO 25010 模块化、可修改性、可测试性
8 智能体特定 新增 触发精确性、渐进式披露、可组合性、幂等性、逃生通道

分数解读

分数范围 结论 后续行动
90–100 优秀 可放心发布
80–89 良好 可发布,注明已知问题
70–79 可接受 发布前需修复 P0 问题
60–69 需要改进 发布前需修复 P0 和 P1 问题
<60 尚未就绪 需要进行重大修改

深入安全扫描

本评估器涵盖了安全性基础(凭证、输入验证、数据安全)。若要对开发中的技能进行彻底的安全审计,可考虑使用 SkillLens (npx skilllens scan <path>)。它能检查数据外泄、代码执行、持久化、权限绕过和提示注入等问题,与本工具的质量评估形成互补。

依赖项

  • Python 3.6+ (用于运行 eval-skill.py)
  • PyYAML (pip install pyyaml) — 用于自动化检查中解析 Frontmatter
3 次点击  ∙  0 人收藏  
登录后收藏  
目前尚无回复
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor