数据集简介
这是一个用于越南语视觉问答(VQA)任务的数据集,特别针对结合了光学字符识别(OCR)的场景。数据集的核心是让模型理解图像中的越南语文本内容,并回答相关问题。
主要用途
- 训练与评估模型:用于训练和评估能够处理越南语图像文本的视觉问答模型。
- 多模态任务:支持结合图像理解和越南语文本理解的AI应用开发。
数据类型/模态
- 图像:包含需要从中提取文本信息的图片。
- 文本:包含与图像内容相关的越南语问题及对应的答案。
规模与统计
- 数据量:包含 136,654 条样本记录。
- 存储格式:数据以 Parquet 格式存储,便于高效处理。
使用场景
适用于开发或研究需要理解越南语图像文档、海报、街景文字等场景的智能应用,例如:
* 越南语文档信息自动提取与问答。
* 基于场景文字(如路牌、店铺招牌)的交互式应用。