名称: pymupdf-pdf
描述: 使用 PyMuPDF (fitz) 进行快速本地 PDF 解析,输出 Markdown/JSON 格式,并可选提取图像/表格。适用于对速度要求高于鲁棒性的场景,或作为其他重型解析器不可用时的备选方案。默认处理单个 PDF,并为每个文档创建独立的输出文件夹。
使用 PyMuPDF 在本地快速、轻量地解析 PDF 文档。默认提取为 Markdown 格式,并可选择输出 JSON 以及图像和表格。所有输出文件将保存在按文档命名的独立目录中。
如果遇到导入错误(PyMuPDF 未安装)或 Nix libstdc++ 相关问题,请阅读:
- references/pymupdf-notes.md
# 在技能目录下运行
./scripts/pymupdf_parse.py /path/to/file.pdf \
--format md \
--outroot ./pymupdf-output
--format md|json|both (默认: md)--images 提取图像--tables 提取简易的基于行的表格 JSON(快速但粗略)--outroot DIR 更改输出根目录--lang 在 JSON 输出元数据中添加语言提示./pymupdf-output/<pdf-文件名>/ 下创建输出目录。output.mdoutput.json (包含 lang 字段)images/ 子目录tables.json (粗略的基于行格式)