Docling 简化文档处理,能够解析多种格式(包括高级 PDF 理解),并无缝集成到生成式 AI 生态系统中。
要使用 Docling,只需通过包管理器(例如 pip)安装 docling:
pip install docling
注意: 从 docling 2.70.0 版本起,不再支持 Python 3.9。请使用 Python 3.10 或更高版本。
支持 macOS、Linux 和 Windows 环境。兼容 x86_64 和 arm64 架构。
更多详细安装说明请参阅文档。
要在 Python 中转换单个文档,请使用 convert() 方法,例如:
from docling.document_converter import DocumentConverter
source = "https://arxiv.org/pdf/2408.09869" # 本地路径或 URL 文档
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown()) # 输出:"## Docling Technical Report[...]"
更多高级使用选项请参阅文档。
Docling 内置了 CLI 来运行转换。
docling https://arxiv.org/pdf/2206.01062
你也可以通过 Docling CLI 使用 🥚GraniteDocling 和其他 VLM:
docling --pipeline vlm --vlm-model granite_docling https://arxiv.org/pdf/2206.01062
这将在支持的 Apple Silicon 硬件上使用 MLX 加速。
了解更多信息请点击这里
查看 Docling 的文档,了解安装、使用、概念、示例、扩展等详细信息。
通过我们的示例亲自动手,展示如何使用 Docling 解决不同的应用用例。
为了进一步加速你的 AI 应用开发,请查看 Docling 与流行框架和工具的原生集成。
欢迎随时通过讨论区与我们联系。
有关 Docling 内部工作原理的更多细节,请查看 Docling 技术报告。
请阅读为 Docling 做贡献了解详情。
如果你在项目中使用 Docling,请考虑引用以下内容:
@techreport{Docling,
author = {Deep Search Team},
month = {8},
title = {Docling Technical Report},
url = {https://arxiv.org/abs/2408.09869},
eprint = {2408.09869},
doi = {10.48550/arXiv.2408.09869},
version = {1.0.0},
year = {2024}
}
Docling 代码库采用 MIT 许可证。
对于单个模型的使用,请参考原始包中的模型许可证。
Docling 是 LF AI & Data 基金会 中的一个托管项目。
该项目由 IBM 苏黎世研究院的 AI for knowledge 团队发起。