作者: Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever
提交日期: 2021年2月26日
摘要:
最先进的计算机视觉系统通常被训练来预测一组固定的、预先定义好的物体类别。这种受限的监督形式限制了模型的通用性和可用性,因为要指定任何其他视觉概念都需要额外的标注数据。直接从关于图像的原始文本中学习是一种有前景的替代方案,它利用了更广泛的监督来源。本文证明,预测哪个标题与哪张图像匹配这一简单的预训练任务,是一种高效且可扩展的方法,可以从互联网上收集的4亿个(图像,文本)对数据集中从头开始学习最先进的图像表示。预训练完成后,自然语言被用来引用已学习的视觉概念(或描述新的概念),从而实现模型在下游任务上的零样本迁移。我们通过在超过30个不同的现有计算机视觉数据集上进行基准测试来研究该方法的性能,这些任务涵盖OCR、视频中的动作识别、地理定位以及多种细粒度物体分类。该模型在大多数任务上都能实现非平凡的迁移,并且通常无需任何特定数据集的训练即可与全监督基线模型竞争。例如,我们在ImageNet上以零样本方式匹配了原始ResNet-50的准确率,而无需使用其训练所依赖的128万个训练样本中的任何一个。我们在 https://github.com/OpenAI/CLIP 发布了代码和预训练模型权重。
主题分类: 计算机视觉与模式识别 (cs.CV); 机器学习 (cs.LG)