DataCompDR-1B 是由 Apple 发布的一个大规模图文配对数据集,包含约 12.8 亿条图像-文本对数据。
该数据集主要用于训练和评估大规模多模态模型,特别是视觉-语言模型(如 CLIP 风格模型)的预训练。
适用于: - 大规模多模态模型的预训练 - 图文检索、图像描述生成等跨模态任务的研究与开发 - 作为基准数据集用于模型性能评估