jina-reader：使用 Jina AI Reader API 进行精准的网页内容提取

six · 2026-02-04 00:22:11 · 59 次点击 · 0 条评论

名称： jina-reader
描述： "通过 Jina AI Reader API 提取网页内容。提供三种模式：阅读（URL 转 Markdown）、搜索（网页搜索 + 完整内容）、验证（事实核查）。可提取纯净内容且不暴露服务器 IP。"
主页： https://jina.ai/reader
元数据： {"clawdbot":{"emoji":"📖","requires":{"bins":["curl","jq"]},"primaryEnv":"JINA_API_KEY"}}

Jina Reader

通过 Jina AI 提取纯净的网页内容，同时保护您的服务器 IP 不被暴露。

读取 URL

{baseDir}/scripts/reader.sh "https://example.com/article"

搜索网页（前 5 条结果，包含完整内容）

{baseDir}/scripts/reader.sh --mode search "latest AI news 2025"

事实核查

{baseDir}/scripts/reader.sh --mode ground "OpenAI was founded in 2015"

选项

选项	描述	默认值
`--mode`	模式：`read`（读取）、`search`（搜索）、`ground`（验证）	`read`
`--selector`	用于提取特定区域的 CSS 选择器	—
`--wait`	提取前需等待的 CSS 选择器	—
`--remove`	提取前需移除的 CSS 选择器（逗号分隔）	—
`--proxy`	地理代理的国家代码（如 `br`、`us` 等）	—
`--nocache`	强制获取最新内容（跳过缓存）	关闭
`--format`	输出格式：`markdown`、`html`、`text`、`screenshot`	`markdown`
`--json`	输出原始 JSON 格式	关闭

示例

# 提取文章内容
{baseDir}/scripts/reader.sh "https://blog.example.com/post"

# 通过 CSS 选择器提取特定区域
{baseDir}/scripts/reader.sh --selector "article.main" "https://example.com"

# 提取前移除导航栏和广告
{baseDir}/scripts/reader.sh --remove "nav,footer,.ads" "https://example.com"

# 以 JSON 格式输出搜索结果
{baseDir}/scripts/reader.sh --mode search --json "AI enterprise trends"

# 通过巴西代理读取内容
{baseDir}/scripts/reader.sh --proxy br "https://example.com.br"

# 对声明进行事实核查
{baseDir}/scripts/reader.sh --mode ground "Tesla is the most valuable car company"

API 密钥

export JINA_API_KEY="jina_..."

免费额度：1000 万令牌（无需注册）。获取密钥：https://jina.ai/reader/

定价

读取： 约 $0.005/页（标准版） | ReaderLM-v2 版本价格是标准版的 3 倍
搜索： 固定 10K 令牌 + 每个结果的变量费用
验证： 约 300K 令牌/请求（延迟约 30 秒）

为什么选择 Jina Reader？

IP 保护 — 请求通过 Jina 的基础设施路由，而非您的服务器
纯净的 Markdown — 可读性提取 + 可选的 ReaderLM-v2 增强
动态内容支持 — 无头 Chrome 渲染 JavaScript
结构化提取 — 支持 JSON 模式进行数据提取

技能包地址：https://github.com/openclaw/skills/tree/main/skills/ericsantos/jina-reader/SKILL.md

59 次点击 ∙ 0 人收藏

登录后收藏

0 条回复