| 注册会员 | 1048 |
| 主题 | 565 |
| 模型 | 3026 |
| 技能包 | 13874 |
| 数据集 | 1047 |
| 论文 | 265 |
| 开源项目 | 457 |
| 产品 | 上线 | 类型 | 开源 | 结构化提取 | 手写 | 输出 | 价格 | 说明 |
|---|---|---|---|---|---|---|---|---|
|
ABBYY Vantage
ABBYY
|
2021年8月 | API / 应用 | — | ✓ | ✓ | JSON / XML / CSV / PDF / DOCX / XLSX / TXT | 订阅 · 企业,约$5,000/年 | 企业文档平台,150+ 预训练技能覆盖金融、医疗、物流等;与 UiPath、Blue Prism、Automation Anywhere 等 RPA 集成,支持本地部署。 |
|
Amazon Textract
Amazon
|
2019年5月 | API 接口 | — | ✓ | ✓ | JSON | 免费 · 按量$0.0015–0.05/页 | OCR API,含费用单据、证件、房贷材料等专项工具;Queries API 支持对文档内容自然语言提问。不提供自定义模型训练,依赖预置模型。 |
|
Azure Document Intelligence
Microsoft
|
2020年3月 | API / 应用 | — | ✓ | ✓ | JSON / MD | 免费 · 按量$0.0015–0.03/页 | 文档处理服务,预置发票、W-2、保险卡、对账单、税表等模型;自定义神经模型约 5 份标注样本即可训练,复合模型将多种抽取器合一;支持本地容器部署。 |
|
Docsumo
Docsumo
|
2019年6月 | API / 应用 | — | ✓ | ✓ | JSON / CSV / Excel | 订阅 · 企业 · 议价 | 金融场景专项,100+ 预置模型覆盖借贷、银行与保险单据;自动分类、完整性检查与人机协同校验,约 20 份样本即可训练自定义模型。 |
|
Google Document AI
Google
|
2021年4月 | API 接口 | — | ✓ | ✓ | JSON | 按量,$0.0015–0.03/页 | OCR API,手写识别覆盖 50+ 语言,支持数学公式;约 16 类处理器覆盖信贷、采购、身份等场景;支持基于 Gemini 的自定义抽取。 |
|
LlamaParse
LlamaIndex
|
2024年2月 | API 接口 | — | ~ | ✓ | MD / TXT / JSON / XLSX / PDF | 免费 · 按量$0.00125–0.06/页 | 面向 RAG 的多模态解析,输出适合 LLM 的文本与图像块;Auto Mode 按精度需求选最省成本的档位,隶属 LlamaIndex 生态。 |
|
Marker
Datalab
|
2023年12月 | API 接口 | ✓ | ✓ | ~ | MD / JSON / HTML / Chunks | 免费 · 按量(含免费档 / $0.004/页) | 基于不足 10 亿参数的 Surya 模型、可自托管;消费级 GPU 可跑,可选 LLM 混合(如 Gemini)提升复杂版式精度。 |
|
Mathpix
Mathpix
|
2018年4月 | API / 应用 | — | — | ✓ | LaTeX / MD / DOCX / HTML / PDF | 免费 · 按量$0.005/页 | 面向 STEM:将公式、化学结构与科学记号抽取为 LaTeX;处理双栏论文版式与行内/独立公式,提供 Snip 与 Overleaf 集成。 |
|
Mistral OCR
Mistral
|
2025年3月 | API / 应用 | — | ✓ | ✓ | MD / HTML / JSON | 免费 · 按量$0.002/页 | 视觉-语言模型 OCR 服务(第三代 OCR 3,2025-12);可通过 Annotations + Pydantic/JSON schema 做结构化抽取;欧洲托管,批量模式半价。 |
|
Nanonets
Nanonets
|
2017年1月 | API / 应用 | ~ | ✓ | ~ | JSON / CSV / MD / TXT / HTML | 免费 · 按量$0.02–0.30/次运行 | 端到端文档流程:OCR、审批、ERP 同步(NetSuite、SAP、QuickBooks)与应付/应收自动化;无模板抽取可适应新供应商版式。 |
|
Reducto
Reducto
|
2024年2月 | API / 应用 | ~ | ✓ | ✓ | JSON / MD / HTML / CSV | 免费 · 按量$0.015/积分 | 多遍管线 + 智能体自纠错,针对含图表、示意图与嵌套表格的复杂文档;SOC 2 Type II、HIPAA,零留存处理可选。 |
|
Rossum
Rossum
|
2017年1月 | API / 应用 | — | ✓ | ✓ | JSON / XML / CSV / XLSX | 订阅 · 企业,起价约$1,500/月 | 发票、采购单与货运单据自动化,底层为在 1100 万+ 交易文档上训练的 Aurora 专有 LLM;无模板抽取,支持三单匹配(PO/发票/收据),覆盖 276 种语言。 |
|
Unstructured.io
Unstructured
|
2022年9月 | API / 应用 | ~ | ~ | ~ | JSON | 免费 · 按量$0.03/页 | 将 65+ 文件类型转为适合 RAG 的分块,侧重入库管线而非发票号等固定字段抽取;30+ 源与目标连接器(S3、Salesforce、Pinecone 等)。 |
|
Upstage Document Parse
Upstage
|
2024年10月 | API 接口 | — | ~ | — | HTML / MD | 免费 · 按量$0.01–0.03/页 | 文档解析 API,韩厂、擅长中日韩;版式感知 HTML 保持阅读顺序,约 0.6 秒/页;2025 年 Information Extract API 增加结构化字段抽取。 |