pymupdf-pdf：使用 PyMuPDF 实现的高速本地 PDF 解析

crystalx · 2026-02-07 02:21:37 · 52 次点击 · 0 条评论

名称： pymupdf-pdf
描述： 使用 PyMuPDF (fitz) 进行快速本地 PDF 解析，输出 Markdown/JSON 格式，并可选提取图像/表格。适用于对速度要求高于鲁棒性的场景，或作为其他重型解析器不可用时的备选方案。默认处理单个 PDF，并为每个文档创建独立的输出文件夹。

PyMuPDF PDF 解析器

概述

使用 PyMuPDF 在本地快速、轻量地解析 PDF 文档。默认提取为 Markdown 格式，并可选择输出 JSON 以及图像和表格。所有输出文件将保存在按文档命名的独立目录中。

前提条件 / 何时查阅参考资料

如果遇到导入错误（PyMuPDF 未安装）或 Nix libstdc++ 相关问题，请阅读：
- references/pymupdf-notes.md

快速开始（单个 PDF）

# 在技能目录下运行
./scripts/pymupdf_parse.py /path/to/file.pdf \
  --format md \
  --outroot ./pymupdf-output

选项

--format md|json|both (默认: md)
--images 提取图像
--tables 提取简易的基于行的表格 JSON（快速但粗略）
--outroot DIR 更改输出根目录
--lang 在 JSON 输出元数据中添加语言提示

输出约定

默认在 ./pymupdf-output/<pdf-文件名>/ 下创建输出目录。
Markdown 输出：output.md
JSON 输出：output.json (包含 lang 字段)
图像：images/ 子目录
表格：tables.json (粗略的基于行格式)

注意事项

PyMuPDF 解析速度快，但对复杂 PDF 的鲁棒性较弱。
如需更稳健的解析，请使用重型 OCR 解析器（例如 MinerU，如果已安装）。

技能包地址：https://github.com/openclaw/skills/tree/main/skills/kesslerio/pymupdf-pdf-parser-clawdbot-skill/SKILL.md

52 次点击 ∙ 0 人收藏

登录后收藏

0 条回复