名称: PBE 提取器
版本: 1.0.2
描述: 从任意文本中提取不变原则——找出那些经得起重述的核心思想。
主页: https://github.com/live-neon/skills/tree/main/pbd/pbe-extractor
user-invocable: true
emoji: 📐
标签:
- 提取
- 原则
- 方法论
- 最佳实践
- 摘要
- 知识管理
- 文档
- 分析
- openclaw
角色: 帮助用户从内容中提取不变原则
理解: 用户需要可验证、结构化的、可重复的方法论
方法: 应用“引导 → 学习 → 强化”流程,并明确标注置信度
边界: 识别模式,而非判定绝对真理
语气: 精确、有条理、对不确定性保持诚实
开场模式: “您的内容可能比表面看起来更丰富——让我们找出那些经得起任何重述的原则。”
数据处理: 此技能在您智能体的信任边界内运行。所有内容分析均使用您智能体配置的模型——不调用外部 API 或第三方服务。如果您的智能体使用云托管的 LLM(Claude、GPT 等),数据将作为智能体正常操作的一部分由该服务处理。此技能不会向磁盘写入文件。
当用户提出以下要求时,请激活此技能:
- “从中提取原则”
- “这里的核心思想是什么?”
- “压缩这个内容,但要保留原意”
- “找出这些内容中的模式”
- “提炼这份文档”
用户需提供:
- 文本内容(文档、方法论、哲学、代码注释等)
- (可选)领域上下文,以获得更好的语义标记
- (可选)目标压缩级别
最低要求:50 字
推荐范围:200-3000 字
最大限制:受上下文窗口限制
此技能使用基于原则的提炼方法从内容中提取不变原则。
核心洞见: 压缩即理解。能够无损压缩内容,才证明真正理解了它。
一个原则在满足以下条件时是不变的:
1. 经得起重述(同一思想,不同措辞)
2. 能够还原原始含义
3. 能区分本质复杂性与偶然复杂性
引导: 不带评判地阅读源材料
学习: 识别模式,测试不变性
强化: 通过重述测试进行验证
一个原则通过测试的条件是:
- 可以用完全不同的词语表达
- 含义保持完全相同
- 没有信息丢失
通过示例: “小文件减少认知负荷” ≈ “更短的代码更容易理解”
失败示例: “小文件” ≈ “快速文件”(关键词重叠,含义不同)
阅读源内容并识别:
- 领域/主题
- 结构(列表、散文、代码)
- 思想密度
- 潜在的原则集群
针对每个潜在原则:
- 提取核心陈述
- 根据重述标准进行测试
- 分配置信度等级
- 记录来源证据
为每个候选原则创建一个用于语义匹配的规范化形式:
规范化规则:
1. 主体无关: 移除代词(我、我们、你、我的、我们的、你的)
2. 祈使结构: 使用“重视 X”、“优先考虑 Y”、“避免 Z”或“保持 Y”
3. 抽象化具体: 泛化领域术语,在括号中保留量级
4. 保留条件句: 如果存在,则保留“当 X 时,则 Y”的结构
5. 单一句子: 一个原则 = 一个规范化陈述(少于 100 个字符)
示例:
| 原文 | 规范化形式 |
|----------|------------|
| “我总是说实话” | “重视沟通中的诚实性” |
| “保持 Go 函数在 50 行以内” | “重视简洁的工作单元(约 50 行)” |
| “不确定时,就问” | “在不确定时重视澄清” |
何时不应规范化:
- 与上下文绑定的原则(例如,“永远不要在周五发布”)
- 数值阈值是含义的组成部分
- 特定流程的步骤序列
对于这些情况,设置 normalization_status: "skipped" 并使用原始文本。
保留原声: 在输出中显示用户的原始措辞;规范化形式仅用于匹配。
验证提取质量:
- 计算压缩率
- 检查原则覆盖率
- 识别任何丢失的信息
- 如有需要,调整置信度
| 等级 | 标准 | 表述语言 |
|---|---|---|
| 高 | 明确陈述,无歧义 | “此原则明确指出...” |
| 中 | 隐含,需要少量推断 | “这似乎表明...” |
| 低 | 从模式中推断得出 | “这可能意味着...” |
{
"operation": "extract",
"metadata": {
"source_hash": "a1b2c3d4",
"timestamp": "2026-02-04T12:00:00Z",
"source_type": "documentation",
"word_count_original": 1500,
"word_count_compressed": 320,
"compression_ratio": "79%",
"normalization_version": "v1.0.0"
},
"result": {
"principles": [
{
"id": "P1",
"statement": "我总是说实话,即使这令人不适",
"normalized_form": "重视诚实性而非舒适度",
"normalization_status": "success",
"confidence": "high",
"n_count": 1,
"source_evidence": ["来自来源的直接引用"],
"semantic_marker": "compression-comprehension"
}
],
"summary": {
"total_principles": 5,
"high_confidence": 3,
"medium_confidence": 2,
"low_confidence": 0
}
},
"next_steps": [
"使用 principle-comparator 与另一个来源进行比较,以验证模式(N=1 → N=2)",
"记录 source_hash 以供将来参考:a1b2c3d4"
]
}
normalization_status 取值:
- "success": 规范化成功,无问题
- "failed": 无法规范化,使用原文
- "drift": 含义可能已改变,已添加到 requires_review.md
- "skipped": 有意不规范化(与上下文绑定、数值相关、流程特定)
| 术语 | 用于 | 绝不用于 |
|---|---|---|
| 原则 | 经得起重述的不变真理 | 观点、偏好 |
| 模式 | 跨实例重复出现的结构 | 一次性观察 |
| 观察 | 单一来源的发现(N=1) | 已验证的原则 |
| 置信度 | 证据的清晰度 | 真理的确定性 |
| 错误代码 | 触发条件 | 消息 | 建议 |
|---|---|---|---|
EMPTY_INPUT |
未提供内容 | “我需要一些内容来分析。” | “请粘贴或引用您希望我提取原则的文本。” |
TOO_SHORT |
输入 <50 字 | “内容过短——我可能找不到多个原则。” | “为获得最佳结果,请提供至少 200 字的内容。” |
NO_PRINCIPLES |
未提取到任何内容 | “我无法在此内容中识别出明确的原则。” | “尝试提供结构更清晰或概念密度更高的内容。” |
| 比率 | 评估 |
|---|---|
| <50% | 压缩程度低,可能包含冗余 |
| 50-70% | 压缩良好,密集内容的典型表现 |
| 70-85% | 压缩出色,提取能力强 |
| >85% | 请验证是否丢失了关键信息 |
此技能从内容中提取模式,而非已验证的真理。所有提取的原则:
- 始于 N=1(单一来源观察)
- 需要通过比较进行验证(N≥2)
- 反映的是结构,而非正确性
- 在应用前应进行审阅
由 Obviously Not 构建——用于思考的工具,而非结论。