OpenGVLab/InternVL-SA-1B-Caption

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

InternVL-SA-1B-Caption 是由 OpenGVLab 发布的一个大规模图文描述数据集。该数据集旨在为视觉-语言模型（特别是图像描述生成任务）提供海量的训练数据。

主要用途

主要用于训练和评估图像描述生成模型，帮助模型学习如何为图像生成准确、丰富的文本描述。

数据类型与模态

模态类型：该数据集是一个多模态数据集，主要包含图像和文本两种模态。
数据格式：数据以 json 格式存储，结构上属于表格数据，便于程序化读取和处理。

规模与统计信息

数据量：数据集规模庞大，包含超过 863 万条 图文对记录（8,630,736 行）。
访问性：数据集为公开访问，无需特殊权限。

使用场景

模型预训练：作为基础训练数据，用于预训练大型视觉-语言模型（如 InternVL）。
图像描述研究：适用于图像字幕生成、视觉问答、图文检索等相关领域的研究与开发。
多模态学习：为需要理解图像内容并生成对应文本的AI应用提供支持。

数据集地址：https://huggingface.co/datasets/OpenGVLab/InternVL-SA-1B-Caption

72 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 11 ms

Developed with Cursor