CORD-v2 是由 NAVER Clova IX 团队发布的数据集,主要用于文档理解与信息提取任务,特别是针对收据类文档。
该数据集旨在支持光学字符识别(OCR)后的结构化信息提取研究与应用开发,例如: - 收据关键字段(如商家、日期、金额、商品条目)的自动识别与解析 - 文档视觉问答(Document VQA) - 端到端的文档理解模型训练
适合计算机视觉、自然语言处理及多模态学习领域的研究者与开发者,用于训练和评估文档信息提取模型。