全球领先的OCR工具包与文档AI引擎
[English](README.md) | [简体中文](./readme/README_cn.md) | [繁體中文](./readme/README_tcn.md) | [日本語](./readme/README_ja.md) | [한국어](./readme/README_ko.md) | [Français](./readme/README_fr.md) | [Русский](./readme/README_ru.md) | [Español](./readme/README_es.md) | [العربية](./readme/README_ar.md)
[](https://pepy.tech/projects/paddleocr)
[](https://github.com/PaddlePaddle/PaddleOCR/network/dependents)



[](https://www.paddleocr.com)
[](https://deepwiki.com/PaddlePaddle/PaddleOCR)
[](../LICENSE)
PaddleOCR 将 PDF 文档和图像转换为结构化、LLM 就绪的数据(JSON/Markdown),并具备行业领先的准确率。凭借 70k+ Stars 的社区支持和 Dify、RAGFlow、Cherry Studio 等顶级项目的信赖,PaddleOCR 已成为构建智能 RAG 和 Agentic 应用的基石。
🚀 核心特性
📄 智能文档解析(LLM就绪)
将杂乱的视觉信息转化为LLM时代所需的结构化数据。
- SOTA 文档视觉语言模型: 搭载行业领先的轻量级文档解析视觉语言模型 PaddleOCR-VL-1.5 (0.9B)。该模型在解析复杂文档方面表现出色,能应对 弯曲、扫描、屏幕拍摄、光照不均、倾斜 这五大“真实世界”挑战,并以 Markdown 和 JSON 格式输出结构化结果。
- 结构感知转换: 基于 PP-StructureV3,可将复杂的 PDF 和图像无缝转换为 Markdown 或 JSON。与 PaddleOCR-VL 系列模型不同,它提供更细粒度的坐标信息,包括表格单元格坐标、文本坐标等。
- 生产就绪的高效性: 以超小模型尺寸实现商用级准确率。在公开基准测试中超越众多闭源解决方案,同时保持资源高效,适用于边缘/云端部署。
🔍 通用文本识别(场景OCR)
高速、多语言文本检测的全球黄金标准。
- 支持 100+ 种语言: 原生支持庞大的全球语言库。我们的 PP-OCRv5 单模型方案优雅地处理多语言混合文档(中文、英文、日文、拼音等)。
- 复杂元素掌控: 超越标准文本识别,支持广泛的 自然场景文本检测,涵盖身份证、街景、书籍、工业部件等多种环境。
- 性能飞跃: PP-OCRv5 相比前代版本实现了 13% 的准确率提升,同时保持了 PaddleOCR 闻名的“极致效率”。
🛠️ 以开发者为中心的生态系统
- 无缝集成: AI Agent 生态系统的首选——已深度集成 Dify、RAGFlow、Pathway 和 Cherry Studio。
- LLM 数据飞轮: 提供构建高质量数据集的完整流程,为大语言模型微调提供可持续的“数据引擎”。
- 一键部署: 支持多种硬件后端(NVIDIA GPU、Intel CPU、昆仑芯 XPU 及多种 AI 加速器)。
📣 近期更新
🔥 [2026.01.29] PaddleOCR v3.4.0 发布:不规则文档解析时代
- PaddleOCR-VL-1.5 (SOTA 0.9B VLM): 我们最新的旗舰文档解析模型现已上线!
- OmniDocBench 准确率达 94.5%: 超越顶级通用大模型和专用文档解析器。
- 真实世界鲁棒性: 首次引入 PP-DocLayoutV3 算法进行不规则形状定位,掌握 倾斜、弯曲、扫描、光照不均、屏幕拍摄 这五大挑战场景。
- 能力扩展: 新增支持 印章识别、文本检测,并将支持语言扩展至 111 种(包括中国藏文和孟加拉语)。
- 长文档处理: 支持自动跨页表格合并和层级标题识别。
- 立即体验: 可在 HuggingFace 或我们的 官方网站 上使用。
2025.10.16: PaddleOCR 3.3.0 发布
- 发布 PaddleOCR-VL:
- **模型介绍**:
- **PaddleOCR-VL** 是一款为文档解析量身定制的 SOTA 且资源高效的模型。其核心组件是 PaddleOCR-VL-0.9B,一个紧凑而强大的视觉语言模型(VLM),它集成了 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型,以实现精确的元素识别。**该创新模型高效支持 109 种语言,擅长识别复杂元素(如文本、表格、公式和图表),同时保持极低的资源消耗**。通过在广泛使用的公共基准测试和内部基准测试上的全面评估,PaddleOCR-VL 在页面级文档解析和元素级识别方面均达到了 SOTA 性能。它显著优于现有解决方案,在与顶级 VLM 的竞争中展现出强大实力,并提供快速的推理速度。这些优势使其非常适合在实际场景中部署。该模型已在 [HuggingFace](https://huggingface.co/PaddlePaddle/PaddleOCR-VL) 上发布。欢迎大家下载使用!更多介绍信息请参阅 [PaddleOCR-VL](https://www.paddleocr.ai/latest/version3.x/algorithm/PaddleOCR-VL/PaddleOCR-VL.html)。
- **核心特性**:
- **紧凑而强大的 VLM 架构**:我们提出了一种新颖的视觉语言模型,专为资源高效推理而设计,在元素识别方面表现出色。通过将 NaViT 风格的动态高分辨率视觉编码器与轻量级 ERNIE-4.5-0.3B 语言模型集成,我们显著提升了模型的识别能力和解码效率。这种集成在保持高精度的同时降低了计算需求,使其非常适合高效、实用的文档处理应用。
- **文档解析的 SOTA 性能**:PaddleOCR-VL 在页面级文档解析和元素级识别方面均达到了最先进的性能。它显著优于现有的基于流水线的解决方案,并在文档解析方面与领先的视觉语言模型(VLM)展现出强大的竞争力。此外,它在识别复杂文档元素(如文本、表格、公式和图表)方面表现出色,使其适用于包括手写文本和历史文档在内的各种具有挑战性的内容类型。这使其具有高度的通用性,适用于广泛的文档类型和场景。
- **多语言支持**:PaddleOCR-VL 支持 109 种语言,涵盖全球主要语言,包括但不限于中文、英文、日文、拉丁文和韩文,以及具有不同文字和结构的语言,如俄文(西里尔字母)、阿拉伯文、印地文(天城文)和泰文。这种广泛的语言覆盖极大地增强了我们系统在多语言和全球化文档处理场景中的适用性。
- 发布 PP-OCRv5 多语言识别模型:
- 提升了拉丁字母识别的准确率和覆盖范围;新增支持西里尔字母、阿拉伯文、天城文、泰卢固文、泰米尔文等语言体系,覆盖 109 种语言的识别。模型仅 2M 参数,部分模型准确率相比上一代提升超过 40%。
2025.08.21: PaddleOCR 3.2.0 发布
- **重要模型新增**:
- 引入了 PP-OCRv5 英文、泰文和希腊文识别模型的训练、推理和部署。**PP-OCRv5 英文模型在英文场景下相比主 PP-OCRv5 模型提升了 11%,泰文和希腊文识别模型的准确率分别达到 82.68% 和 89.28%。**
- **部署能力升级**:
- **全面支持 PaddlePaddle 框架 3.1.0 和 3.1.1 版本。**
- **全面升级 PP-OCRv5 C++ 本地部署方案,现已支持 Linux 和 Windows,功能与 Python