数据集简介
这是一个用于越南语手写文字识别(OCR)的数据集,由5CD-AI团队创建。数据集包含了手写越南语文本的图像及其对应的转录文本,旨在支持手写文本识别模型的训练与评估。
主要用途
- 训练和评估越南语手写文字识别(OCR)模型
- 研究手写文本识别技术,特别是针对越南语场景
- 可作为相关自然语言处理或计算机视觉任务的基准数据
数据类型/模态
- 图像:手写越南语文本的扫描或拍摄图像
- 文本:与图像对应的转录文本(Ground Truth)
规模与统计
- 数据总量:23,403 条样本(图像-文本对)
- 数据格式:支持 Parquet 和 Optimized Parquet 格式
- 访问方式:需手动申请访问(手动授权)
使用场景
- 越南语手写文档的数字化与转录
- 教育领域的手写作业自动批改
- 历史手写文档的归档与检索
- 多语言OCR系统的扩展与优化