lmms-lab/flickr30k

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

Flickr30k 是一个经典的图像-文本配对数据集，主要用于视觉-语言任务的研究与模型训练。

主要用途

该数据集常用于训练和评估图像描述生成、图像-文本检索、视觉问答等跨模态理解模型。

数据类型/模态

模态：包含图像和文本两种模态。
内容：每张图像都配有多条人工标注的英文描述句子。

规模与统计

数据量：包含 31,783 条数据记录（即图像-文本配对样本）。
格式：数据以 Parquet 格式存储，便于高效处理。

使用场景

适用于计算机视觉和自然语言处理交叉领域的研究，是训练多模态大语言模型（MLLM）或评估模型图文理解能力的常用基准数据集之一。

数据集地址：https://huggingface.co/datasets/lmms-lab/flickr30k

67 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 11 ms

Developed with Cursor