Docling 简化了文档处理流程,能够解析多种格式(包括高级的 PDF 理解),并无缝集成到生成式 AI 生态系统中。
要使用 Docling,只需从包管理器(如 pip)安装 docling:
pip install docling
注意: 从 docling 2.70.0 版本起,不再支持 Python 3.9。请使用 Python 3.10 或更高版本。
支持 macOS、Linux 和 Windows 环境。兼容 x86_64 和 arm64 架构。
更多详细的安装说明请参阅文档。
要在 Python 中转换单个文档,请使用 convert() 方法,例如:
from docling.document_converter import DocumentConverter
source = "https://arxiv.org/pdf/2408.09869" # 本地路径或 URL 文档
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown()) # 输出: "## Docling Technical Report[...]"
更多高级用法选项请参阅文档。
Docling 内置了 CLI 来运行转换任务。
docling https://arxiv.org/pdf/2206.01062
你也可以通过 Docling CLI 使用 🥚GraniteDocling 和其他 VLM 模型:
docling --pipeline vlm --vlm-model granite_docling https://arxiv.org/pdf/2206.01062
在支持的 Apple Silicon 硬件上,这将使用 MLX 加速。
阅读此处了解更多。
查看 Docling 的文档,了解安装、使用、概念、示例、扩展等详细信息。
通过我们的示例亲自动手,了解如何使用 Docling 解决不同的应用场景。
为了进一步加速你的 AI 应用开发,请查看 Docling 与流行框架和工具的原生集成。
欢迎随时通过 讨论区 与我们联系。
要了解 Docling 内部工作原理的更多细节,请查看 Docling 技术报告。
请阅读 为 Docling 做贡献 了解详情。
如果在你的项目中使用了 Docling,请考虑引用以下内容:
@techreport{Docling,
author = {Deep Search Team},
month = {8},
title = {Docling Technical Report},
url = {https://arxiv.org/abs/2408.09869},
eprint = {2408.09869},
doi = {10.48550/arXiv.2408.09869},
version = {1.0.0},
year = {2024}
}
Docling 代码库采用 MIT 许可证。
对于单个模型的使用,请参考原始包中的模型许可证。
Docling 是 LF AI & Data 基金会 中的一个托管项目。
该项目由 IBM 苏黎世研究院的知识 AI 团队发起。