DocLayNet-v1.2 数据集介绍
数据集简介
DocLayNet-v1.2 是一个用于文档布局分析的大规模数据集,专注于从扫描或数字文档中识别和分割不同的布局元素。
主要用途
- 训练和评估文档布局分析模型
- 支持光学字符识别(OCR)后处理
- 文档结构理解和信息提取
数据类型/模态
- 图像模态:文档页面图像
- 文本模态:与图像对应的文本内容及布局标注
规模与统计
- 总样本数:80,863 行
- 数据格式:Parquet
- 支持处理库:Datasets、Dask、ML Croissant、Polars
使用场景
- 学术研究(文档分析、计算机视觉)
- 工业应用(自动化文档处理、智能文档管理系统)
- 机器学习模型训练(特别是多模态模型)
特点
- 开源可公开访问
- 专注于真实世界的文档布局复杂性
- 适用于多模态学习任务