数据集简介
Winoground 是一个由 Facebook 发布的多模态视觉语言理解基准数据集,旨在评估模型对图像和文本之间复杂、细微关联的理解能力。
主要用途
该数据集主要用于评测和提升多模态模型(如图文匹配、视觉问答、图像描述生成等模型)的细粒度推理能力,挑战模型超越简单的表面关联,理解语言与视觉内容之间更精妙、组合性的关系。
数据类型/模态
- 模态:图像与文本对。
- 核心形式:数据集中包含精心构造的(图像,文本)配对,这些配对通常涉及对物体、属性和关系的组合进行细微改动,以测试模型是否真正理解了场景。
规模与统计信息
- 数据量:共包含 400 个样本(行)。
- 格式:数据以 Parquet 格式提供。
使用场景与特点
- 核心挑战:侧重于组合性推理。例如,测试模型能否区分“用勺子搅拌锅里的汤”和“用锅搅拌勺子里的汤”在对应图像上的差异。
- 评估重点:不仅考察模型能否进行基本的图文匹配,更关注其处理语言组合(如主语、宾语、动词、属性等的交换或重组)与视觉场景对应关系的能力。
- 适用任务:多模态模型的能力评测、细粒度视觉语言理解研究、模型鲁棒性分析。