Common-O 是由 Facebook 发布的一个多模态数据集,包含图像和文本两种数据类型。
该数据集适用于需要结合视觉与语言信息的多模态任务研究,例如图像描述生成、视觉问答、跨模态检索等。
适合研究人员和开发者用于训练或评估多模态机器学习模型,探索图像与文本之间的关联与交互。