数据集简介
InternVL-SA-1B-Caption 是由 OpenGVLab 发布的一个大规模图文描述数据集。该数据集旨在为视觉-语言模型(特别是图像描述生成任务)提供海量的训练数据。
主要用途
主要用于训练和评估图像描述生成模型,帮助模型学习如何为图像生成准确、丰富的文本描述。
数据类型与模态
- 模态类型:该数据集是一个多模态数据集,主要包含图像和文本两种模态。
- 数据格式:数据以
json 格式存储,结构上属于表格数据,便于程序化读取和处理。
规模与统计信息
- 数据量:数据集规模庞大,包含超过 863 万条 图文对记录(8,630,736 行)。
- 访问性:数据集为公开访问,无需特殊权限。
使用场景
- 模型预训练:作为基础训练数据,用于预训练大型视觉-语言模型(如 InternVL)。
- 图像描述研究:适用于图像字幕生成、视觉问答、图文检索等相关领域的研究与开发。
- 多模态学习:为需要理解图像内容并生成对应文本的AI应用提供支持。