这是一个由 AllenAI 发布的 OCR 混合数据集,主要用于光学字符识别相关的训练与研究。
该数据集适用于训练和评估 OCR 模型,可用于从图像或文档中提取文本信息。
适用于自然语言处理、文档数字化、信息检索等领域中需要处理扫描文档或图像文本的任务。