OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  代码  ›  Docling — 面向 PDF 与复杂文档解析的 AI 工具包

Docling — 面向 PDF 与复杂文档解析的 AI 工具包

 
  ghost ·  2026-02-23 01:19:38 · 6 次点击  · 0 条评论  

Docling

Docling

DS4SD%2Fdocling | Trendshift

arXiv
Docs
PyPI version
PyPI - Python Version
uv
Ruff
Pydantic v2
pre-commit
License MIT
PyPI Downloads
Docling Actor
Chat with Dosu
Discord
OpenSSF Best Practices
LF AI & Data

Docling 简化了文档处理流程,能够解析多种格式(包括高级的 PDF 理解),并无缝集成到生成式 AI 生态系统中。

功能特性

  • 🗂️ 支持解析多种文档格式,包括 PDF、DOCX、PPTX、XLSX、HTML、WAV、MP3、WebVTT、图像(PNG、TIFF、JPEG 等)、LaTeX 等
  • 📑 高级 PDF 理解,包括页面布局、阅读顺序、表格结构、代码、公式、图像分类等
  • 🧬 统一且富有表现力的 DoclingDocument 表示格式
  • ↪️ 多种导出格式和选项,包括 Markdown、HTML、WebVTT、DocTags 和无损 JSON
  • 📜 支持多种应用特定的 XML 模式,包括 USPTO 专利、JATS 文章和 XBRL 财务报告
  • 🔒 支持本地执行,适用于敏感数据和隔离环境
  • 🤖 即插即用的集成,包括 LangChain、LlamaIndex、Crew AI 和 Haystack,用于智能体 AI
  • 🔍 对扫描版 PDF 和图像提供广泛的 OCR 支持
  • 👓 支持多种视觉语言模型(如 GraniteDocling
  • 🎙️ 音频支持,包含自动语音识别(ASR)模型
  • 🔌 通过 MCP 服务器 连接到任何智能体
  • 💻 简单便捷的 CLI

最新动态

  • 📤 结构化信息提取 [🧪 测试版]
  • 📑 默认使用新的布局模型 (Heron),以加速 PDF 解析
  • 🔌 用于智能体应用的 MCP 服务器
  • 💼 解析 XBRL(可扩展商业报告语言)文档,用于处理财务报告
  • 💬 解析 WebVTT(Web 视频文本轨道)文件并导出为 WebVTT 格式
  • 💬 解析 LaTeX 文件

即将推出

  • 📝 元数据提取,包括标题、作者、参考文献和语言
  • 📝 图表理解(条形图、饼图、折线图等)
  • 📝 复杂化学结构理解(分子结构)

安装

要使用 Docling,只需从包管理器(如 pip)安装 docling

pip install docling

注意: 从 docling 2.70.0 版本起,不再支持 Python 3.9。请使用 Python 3.10 或更高版本。

支持 macOS、Linux 和 Windows 环境。兼容 x86_64 和 arm64 架构。

更多详细的安装说明请参阅文档。

快速开始

要在 Python 中转换单个文档,请使用 convert() 方法,例如:

from docling.document_converter import DocumentConverter

source = "https://arxiv.org/pdf/2408.09869"  # 本地路径或 URL 文档
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # 输出: "## Docling Technical Report[...]"

更多高级用法选项请参阅文档。

命令行界面 (CLI)

Docling 内置了 CLI 来运行转换任务。

docling https://arxiv.org/pdf/2206.01062

你也可以通过 Docling CLI 使用 🥚GraniteDocling 和其他 VLM 模型:

docling --pipeline vlm --vlm-model granite_docling https://arxiv.org/pdf/2206.01062

在支持的 Apple Silicon 硬件上,这将使用 MLX 加速。

阅读此处了解更多。

文档

查看 Docling 的文档,了解安装、使用、概念、示例、扩展等详细信息。

示例

通过我们的示例亲自动手,了解如何使用 Docling 解决不同的应用场景。

集成

为了进一步加速你的 AI 应用开发,请查看 Docling 与流行框架和工具的原生集成

获取帮助与支持

欢迎随时通过 讨论区 与我们联系。

技术报告

要了解 Docling 内部工作原理的更多细节,请查看 Docling 技术报告

贡献

请阅读 为 Docling 做贡献 了解详情。

引用

如果在你的项目中使用了 Docling,请考虑引用以下内容:

@techreport{Docling,
  author = {Deep Search Team},
  month = {8},
  title = {Docling Technical Report},
  url = {https://arxiv.org/abs/2408.09869},
  eprint = {2408.09869},
  doi = {10.48550/arXiv.2408.09869},
  version = {1.0.0},
  year = {2024}
}

许可证

Docling 代码库采用 MIT 许可证。
对于单个模型的使用,请参考原始包中的模型许可证。

LF AI & Data

Docling 是 LF AI & Data 基金会 中的一个托管项目。

IBM ❤️ 开源 AI

该项目由 IBM 苏黎世研究院的知识 AI 团队发起。

6 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 24 ms
Developed with Cursor