Flickr30k 是一个经典的图像-文本配对数据集,主要用于视觉-语言任务的研究与模型训练。
该数据集常用于训练和评估图像描述生成、图像-文本检索、视觉问答等跨模态理解模型。
适用于计算机视觉和自然语言处理交叉领域的研究,是训练多模态大语言模型(MLLM)或评估模型图文理解能力的常用基准数据集之一。