OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
说明
  • 条目同步来自 Hugging Face 主要方便针对性讨论。
OA0  ›  数据集  ›  AI at Meta

facebook/winoground

 
  AI at Meta  ·  2024-10-22 16:34:52  ·  21 次点击  ·  0 条评论  

数据集简介

Winoground 是一个由 Facebook 发布的多模态视觉语言理解基准数据集,旨在评估模型对图像和文本之间复杂、细微关联的理解能力。

主要用途

该数据集主要用于评测和提升多模态模型(如图文匹配、视觉问答、图像描述生成等模型)的细粒度推理能力,挑战模型超越简单的表面关联,理解语言与视觉内容之间更精妙、组合性的关系。

数据类型/模态

  • 模态:图像与文本对。
  • 核心形式:数据集中包含精心构造的(图像,文本)配对,这些配对通常涉及对物体、属性和关系的组合进行细微改动,以测试模型是否真正理解了场景。

规模与统计信息

  • 数据量:共包含 400 个样本(行)。
  • 格式:数据以 Parquet 格式提供。

使用场景与特点

  • 核心挑战:侧重于组合性推理。例如,测试模型能否区分“用勺子搅拌锅里的汤”和“用锅搅拌勺子里的汤”在对应图像上的差异。
  • 评估重点:不仅考察模型能否进行基本的图文匹配,更关注其处理语言组合(如主语、宾语、动词、属性等的交换或重组)与视觉场景对应关系的能力。
  • 适用任务:多模态模型的能力评测、细粒度视觉语言理解研究、模型鲁棒性分析。
21 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 134 ms
Developed with Cursor