名称: jina-reader
描述: "通过 Jina AI Reader API 提取网页内容。提供三种模式:阅读(URL 转 Markdown)、搜索(网页搜索 + 完整内容)、验证(事实核查)。可提取纯净内容且不暴露服务器 IP。"
主页: https://jina.ai/reader
元数据: {"clawdbot":{"emoji":"📖","requires":{"bins":["curl","jq"]},"primaryEnv":"JINA_API_KEY"}}
通过 Jina AI 提取纯净的网页内容,同时保护您的服务器 IP 不被暴露。
{baseDir}/scripts/reader.sh "https://example.com/article"
{baseDir}/scripts/reader.sh --mode search "latest AI news 2025"
{baseDir}/scripts/reader.sh --mode ground "OpenAI was founded in 2015"
| 选项 | 描述 | 默认值 |
|---|---|---|
--mode |
模式:read(读取)、search(搜索)、ground(验证) |
read |
--selector |
用于提取特定区域的 CSS 选择器 | — |
--wait |
提取前需等待的 CSS 选择器 | — |
--remove |
提取前需移除的 CSS 选择器(逗号分隔) | — |
--proxy |
地理代理的国家代码(如 br、us 等) |
— |
--nocache |
强制获取最新内容(跳过缓存) | 关闭 |
--format |
输出格式:markdown、html、text、screenshot |
markdown |
--json |
输出原始 JSON 格式 | 关闭 |
# 提取文章内容
{baseDir}/scripts/reader.sh "https://blog.example.com/post"
# 通过 CSS 选择器提取特定区域
{baseDir}/scripts/reader.sh --selector "article.main" "https://example.com"
# 提取前移除导航栏和广告
{baseDir}/scripts/reader.sh --remove "nav,footer,.ads" "https://example.com"
# 以 JSON 格式输出搜索结果
{baseDir}/scripts/reader.sh --mode search --json "AI enterprise trends"
# 通过巴西代理读取内容
{baseDir}/scripts/reader.sh --proxy br "https://example.com.br"
# 对声明进行事实核查
{baseDir}/scripts/reader.sh --mode ground "Tesla is the most valuable car company"
export JINA_API_KEY="jina_..."
免费额度:1000 万令牌(无需注册)。获取密钥:https://jina.ai/reader/