原论文标题: Learning Transferable Visual Models From Natural Language Supervision 作者: Alec Radford 等 arXiv: 2103.00020
CLIP 通过大规模图文对进行对比学习,实现图像与文本语义对齐。模型无需传统标签监督,即可实现强大的零样本图像分类能力。