docling-project/DocLayNet

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

数据集简介

DocLayNet 是一个用于文档布局分析的公开数据集，由 docling-project 团队创建。它专门用于训练和评估模型，以理解和解析复杂文档（如科学论文、报告、表格等）的结构和布局。

该数据集主要用于文档智能（Document AI）领域的研究和开发，特别是文档布局分析任务。模型可以学习识别文档中的不同元素，如文本段落、标题、表格、图片、列表、脚注等，并理解它们之间的空间和逻辑关系。

模态类型：视觉文档（图像）与结构化标注。
数据内容：数据集包含大量文档页面的图像，以及与之对应的精细标注。标注信息通常以边界框（Bounding Box）和类别标签的形式存在，标明了页面中每个语义区域（如正文、表格、图、标题等）的位置和类型。

70 次点击 ∙ 0 人收藏

登录后收藏

0 条回复