FinTabNet_OTSL 是一个专注于金融表格识别与理解的数据集,由 docling-project 团队发布。它旨在为表格检测、结构识别和内容提取等任务提供高质量的标注数据。
该数据集主要用于训练和评估金融文档(如报表、公告)中表格的自动识别与信息抽取模型,服务于文档智能(Document AI)领域。
适用于计算机视觉和自然语言处理的交叉研究,特别是:
* 表格检测与定位
* 表格结构识别(行列分割)
* 光学字符识别(OCR)后的表格内容重建
* 金融文档的信息自动化处理流程开发