RefCOCO 是一个用于视觉语言定位的数据集,专注于图像中特定对象的指代表达式理解。其核心任务是:给定一句自然语言描述(指代表达式),在图像中定位并分割出所描述的目标对象。
该数据集主要用于训练和评估指代表达式分割与视觉定位模型。模型需要理解文本描述,并在对应的图像中精确地找到所指的目标。
数据集包含多模态数据: * 图像:包含多个对象的场景图片。 * 文本:与图像中特定对象对应的自然语言描述(指代表达式)。 * 时序数据:可能涉及指代关系的序列或标注信息。