ConsistCompose3M 是由 SenseNova 发布的一个大规模图文对数据集,主要用于支持图像生成和跨模态理解任务。
该数据集旨在为训练和评估多模态模型(特别是文生图模型)提供高质量的图文配对数据,以提升模型在生成内容一致性方面的能力。
适用于训练和微调扩散模型、视觉-语言模型 (VLM) 等,尤其关注于提升模型根据文本描述生成连贯、一致图像的能力。