首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

LightOnOCR-mix-0126 数据集介绍

数据集简介

这是一个由 lightonai 发布的光学字符识别（OCR）相关数据集，主要用于训练或评估 OCR 模型。

主要用途

训练或微调 OCR（光学字符识别）模型。
评估 OCR 模型的性能。
可能用于多语言或混合场景的文本识别研究。

数据类型与模态

模态类型：文本（Text）
数据以 Parquet 格式存储，便于高效处理和分析。

规模与统计信息

数据行数：约 1643 万行（16,430,833 条记录）
下载量：1652 次
点赞数：108

使用场景

OCR 模型开发：为构建或改进文本识别系统提供训练数据。
学术研究：可用于多语言 OCR、文档数字化等相关领域的研究。
工业应用：适用于需要从图像或扫描文档中提取文本的实际应用场景。

特点

数据集规模较大，包含千万级别的样本。
非私有（公开）数据集，可直接访问使用。
支持通过多种数据处理库（如 datasets, dask, polars 等）进行加载和处理。

数据集地址：https://huggingface.co/datasets/lightonai/LightOnOCR-mix-0126

67 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 11 ms

Developed with Cursor