作者: Maxime Oquab, Timothée Darcet, Théo Moutakanni, Huy Vo, Marc Szafraniec, Vasil Khalidov, Pierre Fernandez, Daniel Haziza, Francisco Massa, Alaaeldin El-Nouby, Mahmoud Assran, Nicolas Ballas, Wojciech Galuba, Russell Howes, Po-Yao Huang, Shang-Wen Li, Ishan Misra, Michael Rabbat, Vasu Sharma, Gabriel Synnaeve, Hu Xu, Hervé Jegou, Julien Mairal, Patrick Labatut, Armand Joulin, Piotr Bojanowski
摘要:
自然语言处理领域在大规模数据预训练模型上的突破,为计算机视觉领域建立类似的“基础模型”开辟了道路。这类模型能够通过生成通用的视觉特征(即无需微调即可跨图像分布和任务工作的特征),极大地简化图像在任何系统中的使用。本工作表明,现有的预训练方法,特别是自监督方法,如果在来自不同来源的足够多经过筛选的数据上进行训练,就能够产生这样的特征。我们重新审视了现有方法,并结合不同的技术,在数据和模型规模上扩展了我们的预训练。大部分技术贡献旨在加速和稳定大规模训练。在数据方面,我们提出了一种自动流程来构建一个专用的、多样化的、经过筛选的图像数据集,而不是像自监督文献中通常所做的那样使用未经筛选的数据。在模型方面,我们训练了一个拥有10亿参数的ViT模型(Dosovitskiy等人,2020),并将其蒸馏成一系列更小的模型。这些模型在大多数图像级和像素级的基准测试中超越了当前最佳的通用特征提取器OpenCLIP(Ilharco等人,2021)。
主题/分类: 计算机视觉与模式识别 (cs.CV)
提交/修订日期: 2023年4月14日提交,2024年2月2日修订 (v2)
arXiv标识符: arXiv:2304.07193