OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
OA0  ›  技能包  ›  pymupdf-pdf:使用 PyMuPDF 实现的高速本地 PDF 解析

pymupdf-pdf:使用 PyMuPDF 实现的高速本地 PDF 解析

 
  admin ·  2026-02-07 02:21:37 · 3 次点击  · 0 条评论  

名称: pymupdf-pdf
描述: 使用 PyMuPDF (fitz) 进行快速本地 PDF 解析,输出 Markdown/JSON 格式,并可选提取图像/表格。适用于对速度要求高于鲁棒性的场景,或作为其他重型解析器不可用时的备选方案。默认处理单个 PDF,并为每个文档创建独立的输出文件夹。


PyMuPDF PDF 解析器

概述

使用 PyMuPDF 在本地快速、轻量地解析 PDF 文档。默认提取为 Markdown 格式,并可选择输出 JSON 以及图像和表格。所有输出文件将保存在按文档命名的独立目录中。

前提条件 / 何时查阅参考资料

如果遇到导入错误(PyMuPDF 未安装)或 Nix libstdc++ 相关问题,请阅读:
- references/pymupdf-notes.md

快速开始(单个 PDF)

# 在技能目录下运行
./scripts/pymupdf_parse.py /path/to/file.pdf \
  --format md \
  --outroot ./pymupdf-output

选项

  • --format md|json|both (默认: md)
  • --images 提取图像
  • --tables 提取简易的基于行的表格 JSON(快速但粗略)
  • --outroot DIR 更改输出根目录
  • --lang 在 JSON 输出元数据中添加语言提示

输出约定

  • 默认在 ./pymupdf-output/<pdf-文件名>/ 下创建输出目录。
  • Markdown 输出:output.md
  • JSON 输出:output.json (包含 lang 字段)
  • 图像:images/ 子目录
  • 表格:tables.json (粗略的基于行格式)

注意事项

  • PyMuPDF 解析速度快,但对复杂 PDF 的鲁棒性较弱。
  • 如需更稳健的解析,请使用重型 OCR 解析器(例如 MinerU,如果已安装)。
3 次点击  ∙  0 人收藏  
登录后收藏  
目前尚无回复
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor