5CD-AI/Viet-OCR-VQA-flash2

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

这是一个用于越南语视觉问答（VQA）任务的数据集，特别针对结合了光学字符识别（OCR）的场景。数据集的核心是让模型理解图像中的越南语文本内容，并回答相关问题。

主要用途

训练与评估模型：用于训练和评估能够处理越南语图像文本的视觉问答模型。
多模态任务：支持结合图像理解和越南语文本理解的AI应用开发。

数据类型/模态

图像：包含需要从中提取文本信息的图片。
文本：包含与图像内容相关的越南语问题及对应的答案。

规模与统计

数据量：包含 136,654 条样本记录。
存储格式：数据以 Parquet 格式存储，便于高效处理。

使用场景

适用于开发或研究需要理解越南语图像文档、海报、街景文字等场景的智能应用，例如：
* 越南语文档信息自动提取与问答。
* 基于场景文字（如路牌、店铺招牌）的交互式应用。

数据集地址：https://huggingface.co/datasets/5CD-AI/Viet-OCR-VQA-flash2

81 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 10 ms

Developed with Cursor