facebook/winoground

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

Winoground 是一个由 Facebook 发布的多模态视觉语言理解基准数据集，旨在评估模型对图像和文本之间复杂、细微关联的理解能力。

主要用途

该数据集主要用于评测和提升多模态模型（如图文匹配、视觉问答、图像描述生成等模型）的细粒度推理能力，挑战模型超越简单的表面关联，理解语言与视觉内容之间更精妙、组合性的关系。

数据类型/模态

模态：图像与文本对。
核心形式：数据集中包含精心构造的（图像，文本）配对，这些配对通常涉及对物体、属性和关系的组合进行细微改动，以测试模型是否真正理解了场景。

规模与统计信息

数据量：共包含 400 个样本（行）。
格式：数据以 Parquet 格式提供。

使用场景与特点

核心挑战：侧重于组合性推理。例如，测试模型能否区分“用勺子搅拌锅里的汤”和“用锅搅拌勺子里的汤”在对应图像上的差异。
评估重点：不仅考察模型能否进行基本的图文匹配，更关注其处理语言组合（如主语、宾语、动词、属性等的交换或重组）与视觉场景对应关系的能力。
适用任务：多模态模型的能力评测、细粒度视觉语言理解研究、模型鲁棒性分析。

数据集地址：https://huggingface.co/datasets/facebook/winoground

65 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 42 ms

Developed with Cursor