OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

OA0 › 代码 › Camelot — 从 PDF 中提取表格数据的经典工具，常用于文档智能处理

Camelot — 从 PDF 中提取表格数据的经典工具，常用于文档智能处理

echo · 2026-02-21 06:20:26 · 76 次点击 · 0 条评论

Camelot：为人类设计的 PDF 表格提取工具

Camelot 是一个 Python 库，可以帮助你从 PDF 文件中提取表格。

仅需几行代码即可从 PDF 中提取表格：

在我们的交互式快速入门笔记本中亲自尝试。

或者，使用这个 PDF 文件查看一个简单示例。

>>> import camelot
>>> tables = camelot.read_pdf('foo.pdf')
>>> tables
<TableList n=1>
>>> tables.export('foo.csv', f='csv', compress=True) # json, excel, html, markdown, sqlite
>>> tables[0]
<Table shape=(7, 7)>
>>> tables[0].parsing_report
{
    'accuracy': 99.02,
    'whitespace': 12.24,
    'order': 1,
    'page': 1
}
>>> tables[0].to_csv('foo.csv') # to_json, to_excel, to_html, to_markdown, to_sqlite
>>> tables[0].df # 获取一个 pandas DataFrame!

周期名称	KI (1/km)	距离 (mi)	燃料节省百分比
			提升速度	减少加速	消除停车	减少怠速
2012_2	3.30	1.3	5.9%	9.5%	29.2%	17.4%
2145_1	0.68	11.2	2.4%	0.1%	9.5%	2.7%
4234_1	0.59	58.7	8.5%	1.3%	8.5%	3.3%
2032_2	0.17	57.8	21.7%	0.3%	2.7%	1.2%
4171_1	0.07	173.9	58.1%	1.6%	2.1%	0.5%

Camelot 还附带一个命令行界面！

请参阅快速入门指南，快速开始使用 Camelot、从 PDF 提取表格并探索一些基本选项。

提示： 访问 parser-comparison-notebook 以了解所有内置解析器及其功能的概览。

注意： Camelot 仅适用于基于文本的 PDF，不适用于扫描文档。（正如 Tabula 解释的那样，“如果你能在 PDF 查看器中点击并拖动以选择表格中的文本，那么你的 PDF 就是基于文本的”。）

你可以在这里查看一些常见问题。

为什么选择 Camelot？

可配置性：Camelot 通过可调整的设置让你控制表格提取过程。
度量指标：你可以根据准确性和空白等指标丢弃质量不佳的表格，而无需手动检查每个表格。
输出：每个表格都被提取到一个 pandas DataFrame 中，可以无缝集成到 ETL 和数据分析工作流。你还可以将表格导出为多种格式，包括 CSV、JSON、Excel、HTML、Markdown 和 Sqlite。

查看与其他类似库和工具的比较。

安装

使用 conda

安装 Camelot 最简单的方法是使用 conda，它是 Anaconda 发行版的包管理器和环境管理系统。

conda install -c conda-forge camelot-py

使用 pip

你也可以使用 pip 安装 Camelot：

pip install "camelot-py"

请注意，如果你想使用非默认的后端 ghostscript，可能需要额外的依赖项。

从源代码安装

git clone https://github.com/camelot-dev/camelot.git

并使用 pip 安装：

cd camelot
pip install "."

请注意，如果你想使用非默认的后端 ghostscript，可能需要额外的依赖项。

文档

文档可在 http://camelot-py.readthedocs.io/ 获取。

包装器

camelot-php 为 Camelot 提供了一个 PHP 包装器。

贡献

贡献者指南提供了关于提交问题、文档、代码和测试的详细信息。

版本控制

Camelot 使用语义化版本控制。有关可用版本，请参阅此仓库的标签。关于更新日志，你可以查看发布页面。

许可证

本项目采用 MIT 许可证，详情请见 LICENSE 文件。

文档主题采用单独的类 BSD 许可证，详情请见 LICENSE 文件。

项目地址：https://github.com/camelot-dev/camelot

76 次点击 ∙ 0 人收藏

登录后收藏

0 条回复