OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
OA0  ›  技能包  ›  jina-reader: 使用 Jina AI Reader API 进行精准的网页内容提取

jina-reader: 使用 Jina AI Reader API 进行精准的网页内容提取

 
  npl ·  2026-02-03 15:44:41 · 3 次点击  · 0 条评论  

名称: jina-reader
描述: "通过 Jina AI Reader API 提取网页内容。提供三种模式:阅读(URL 转 Markdown)、搜索(网页搜索 + 完整内容)、验证(事实核查)。可提取纯净内容且不暴露服务器 IP。"
主页: https://jina.ai/reader
元数据: {"clawdbot":{"emoji":"📖","requires":{"bins":["curl","jq"]},"primaryEnv":"JINA_API_KEY"}}


Jina Reader

通过 Jina AI 提取纯净的网页内容,同时保护您的服务器 IP 不被暴露。

读取 URL

{baseDir}/scripts/reader.sh "https://example.com/article"

搜索网页(前 5 条结果,包含完整内容)

{baseDir}/scripts/reader.sh --mode search "latest AI news 2025"

事实核查

{baseDir}/scripts/reader.sh --mode ground "OpenAI was founded in 2015"

选项

选项 描述 默认值
--mode 模式:read(读取)、search(搜索)、ground(验证) read
--selector 用于提取特定区域的 CSS 选择器
--wait 提取前需等待的 CSS 选择器
--remove 提取前需移除的 CSS 选择器(逗号分隔)
--proxy 地理代理的国家代码(如 brus 等)
--nocache 强制获取最新内容(跳过缓存) 关闭
--format 输出格式:markdownhtmltextscreenshot markdown
--json 输出原始 JSON 格式 关闭

示例

# 提取文章内容
{baseDir}/scripts/reader.sh "https://blog.example.com/post"

# 通过 CSS 选择器提取特定区域
{baseDir}/scripts/reader.sh --selector "article.main" "https://example.com"

# 提取前移除导航栏和广告
{baseDir}/scripts/reader.sh --remove "nav,footer,.ads" "https://example.com"

# 以 JSON 格式输出搜索结果
{baseDir}/scripts/reader.sh --mode search --json "AI enterprise trends"

# 通过巴西代理读取内容
{baseDir}/scripts/reader.sh --proxy br "https://example.com.br"

# 对声明进行事实核查
{baseDir}/scripts/reader.sh --mode ground "Tesla is the most valuable car company"

API 密钥

export JINA_API_KEY="jina_..."

免费额度:1000 万令牌(无需注册)。获取密钥:https://jina.ai/reader/

定价

  • 读取: 约 $0.005/页(标准版) | ReaderLM-v2 版本价格是标准版的 3 倍
  • 搜索: 固定 10K 令牌 + 每个结果的变量费用
  • 验证: 约 300K 令牌/请求(延迟约 30 秒)

为什么选择 Jina Reader?

  • IP 保护 — 请求通过 Jina 的基础设施路由,而非您的服务器
  • 纯净的 Markdown — 可读性提取 + 可选的 ReaderLM-v2 增强
  • 动态内容支持 — 无头 Chrome 渲染 JavaScript
  • 结构化提取 — 支持 JSON 模式进行数据提取
3 次点击  ∙  0 人收藏  
登录后收藏  
目前尚无回复
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor