OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
OA0  ›  技能包  ›  raglite-library:将文档提炼为结构化数据的本地优先 RAG 库

raglite-library:将文档提炼为结构化数据的本地优先 RAG 库

 
  architecture ·  2026-02-24 18:18:32 · 2 次点击  · 0 条评论  

名称: raglite
版本: 1.0.0
描述: "本地优先的 RAG 缓存:将文档提炼为结构化 Markdown,然后使用 Chroma 和混合搜索(向量 + 关键词)进行索引与查询。"
元数据:
{
"openclaw": {
"emoji": "🔎",
"os": ["darwin", "linux"],
"requires": { "bins": ["python3", "pip"] }
}
}


RAGLite — 本地 RAG 缓存(非记忆替代方案)

RAGLite 是一个本地优先的 RAG 缓存

替代模型记忆或聊天上下文。它为你的智能体提供了一个持久存储和检索模型未训练信息的场所——尤其适用于本地/私有知识(学校作业、个人笔记、医疗记录、内部操作手册)。

为何优于“付费 RAG”/知识库(在许多场景下)

  • 本地优先的隐私性: 敏感数据保留在本地机器或网络中。
  • 开源构建模块: Chroma 🧠 + ripgrep ⚡ —— 无需托管向量数据库。
  • 嵌入前压缩: 先提炼 → 减少冗余/重复 → 降低提示成本 + 提升检索可靠性。
  • 可审计的产物: 提炼后的 Markdown 是人类可读且可版本控制的。

如果未来本地方案无法满足需求,你可以随时切换到托管数据库——但通常并不需要。

功能概述

1) 提炼 ✍️

将文档转换为结构化的 Markdown 输出(内容精炼,突出“关键信息”)。

2) 索引 🧠

将提炼后的输出嵌入到 Chroma 集合中(一个数据库,多个集合)。

3) 查询 🔎

混合检索:
- 通过 Chroma 进行向量相似性搜索
- 通过 ripgrep (rg) 进行关键词匹配

默认引擎

除非显式传递 --engine 参数,否则本技能默认使用 OpenClaw 🦞 进行内容提炼。

前置要求

  • Python 3.11+
  • 用于索引/查询:
  • Chroma 服务器可达(默认 http://127.0.0.1:8100
  • 用于混合关键词搜索:
  • 已安装 rg (brew install ripgrep)
  • 用于 OpenClaw 引擎:
  • OpenClaw Gateway /v1/responses 可达
  • 如果网关需要认证,请设置 OPENCLAW_GATEWAY_TOKEN 环境变量

安装(技能运行时)

此技能将 RAGLite 安装到技能本地的虚拟环境中:

./scripts/install.sh

它从 GitHub 安装:
- git+https://github.com/VirajSanghvi1/raglite.git@main

使用方法

一键式管道(推荐)

./scripts/raglite.sh run /path/to/docs \
  --out ./raglite_out \
  --collection my-docs \
  --chroma-url http://127.0.0.1:8100 \
  --skip-existing \
  --skip-indexed \
  --nodes

查询

./scripts/raglite.sh query ./raglite_out \
  --collection my-docs \
  --top-k 5 \
  --keyword-top-k 5 \
  "rollback procedure"

输出内容

--out 指定的目录中,你将看到:
- *.tool-summary.md
- *.execution-notes.md
- 可选:*.outline.md
- 可选:*/nodes/*.md 以及每个文档的 *.index.md 和一个根 index.md
- 元数据位于 .raglite/ 目录下(缓存、运行统计、错误信息)

故障排除

  • Chroma 不可达 → 检查 --chroma-url 参数,并确保 Chroma 正在运行。
  • 无关键词搜索结果 → 安装 ripgrep (rg --version)。
  • OpenClaw 引擎错误 → 确保网关已启动且相关环境变量已正确设置。

核心价值(用于 ClawHub 列表展示)

RAGLite 是一个用于重复查询的本地 RAG 缓存

当你(或你的智能体)需要反复搜索相同的非训练数据时——例如本地笔记、学校作业、医疗记录、内部文档——RAGLite 为你提供了一个私密、可审计的知识库:

1) 提炼为结构化 Markdown(嵌入前压缩)
2) 索引到本地的 Chroma 中
3) 查询时使用混合检索(向量 + 关键词)

它不替代记忆/上下文——它是存储你未来需要再次使用信息的地方。

2 次点击  ∙  0 人收藏  
登录后收藏  
目前尚无回复
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor