skill-evaluator：对智能体技能的质量、可靠性进行全面评估

audit · 2026-02-04 06:15:04 · 19 次点击 · 0 条评论

名称： skill-evaluator
描述： 使用多框架评估标准（ISO 25010、OpenSSF、Shneiderman、智能体特定启发式方法），评估 Clawdbot 技能的质量、可靠性和发布就绪度。当需要在发布前审查、审计、评估、评分或评定技能，或检查技能质量时使用。运行自动化结构检查，并指导完成 25 项标准的手动评估。

技能评估器

采用自动化与手动相结合的混合方法，对技能进行 25 项标准的评估。

快速开始

1. 运行自动化检查

python3 scripts/eval-skill.py /path/to/skill
python3 scripts/eval-skill.py /path/to/skill --json    # 机器可读格式
python3 scripts/eval-skill.py /path/to/skill --verbose  # 显示所有详细信息

检查项包括：文件结构、Frontmatter、描述质量、脚本语法、依赖项审计、凭证扫描、环境变量文档。

2. 手动评估

使用 references/rubric.md 中的评估标准，对 8 个类别（共 25 项标准）进行评分（每项 0–4 分，总分 100）。每项标准都针对不同分数级别提供了具体描述。

3. 撰写评估报告

将 assets/EVAL-TEMPLATE.md 复制到技能目录下，命名为 EVAL.md。填入自动化检查结果和手动评分。

评估流程

运行 eval-skill.py — 获取自动化结构评分。
阅读技能的 SKILL.md — 理解其功能。
阅读/浏览脚本 — 评估代码质量、错误处理、可测试性。
使用 references/rubric.md 为每项手动标准评分 — 每个级别都有具体标准。
按优先级分类发现的问题 — P0（阻碍发布）/ P1（应修复）/ P2（锦上添花）。
在技能目录中撰写 EVAL.md — 包含评分和发现的问题。

评估类别（8 类，25 项标准）

#	类别	参考框架	评估标准
1	功能适用性	ISO 25010	完整性、正确性、适用性
2	可靠性	ISO 25010	容错性、错误报告、可恢复性
3	性能 / 上下文	ISO 25010 + 智能体	Token 成本、执行效率
4	可用性 — AI 智能体	Shneiderman, Gerhardt-Powals	易学性、一致性、反馈、错误预防
5	可用性 — 人类	Tognazzini, Norman	可发现性、容错性
6	安全性	ISO 25010 + OpenSSF	凭证管理、输入验证、数据安全
7	可维护性	ISO 25010	模块化、可修改性、可测试性
8	智能体特定	新增	触发精确性、渐进式披露、可组合性、幂等性、逃生通道

分数解读

分数范围	结论	后续行动
90–100	优秀	可放心发布
80–89	良好	可发布，注明已知问题
70–79	可接受	发布前需修复 P0 问题
60–69	需要改进	发布前需修复 P0 和 P1 问题
<60	尚未就绪	需要进行重大修改

深入安全扫描

本评估器涵盖了安全性基础（凭证、输入验证、数据安全）。若要对开发中的技能进行彻底的安全审计，可考虑使用 SkillLens (npx skilllens scan <path>)。它能检查数据外泄、代码执行、持久化、权限绕过和提示注入等问题，与本工具的质量评估形成互补。

依赖项

Python 3.6+ (用于运行 eval-skill.py)
PyYAML (pip install pyyaml) — 用于自动化检查中解析 Frontmatter

技能包地址：https://github.com/openclaw/skills/tree/main/skills/terwox/skill-evaluator/SKILL.md

19 次点击 ∙ 0 人收藏

登录后收藏

0 条回复