作者: Ming Ding, Zhuoyi Yang, Wenyi Hong, Wendi Zheng, Chang Zhou, Da Yin, Junyang Lin, Xu Zou, Zhou Shao, Hongxia Yang, Jie Tang
摘要:
通用领域的文本到图像生成长期以来一直是一个开放性问题,它既需要一个强大的生成模型,也需要跨模态的理解能力。我们提出了 CogView,一个拥有 40 亿参数的 Transformer 模型,并使用了 VQ-VAE 分词器来推进这一问题的解决。我们还展示了针对各种下游任务(例如风格学习、超分辨率、文本-图像排序和时尚设计)的微调策略,以及稳定预训练的方法(例如消除 NaN 损失)。CogView 在模糊的 MS COCO 数据集上取得了最先进的 FID 分数,超越了之前基于 GAN 的模型和近期类似工作 DALL-E。
主题/分类:
- 计算机视觉与模式识别 (cs.CV)
- 机器学习 (cs.LG)
备注: 本文已被 NeurIPS 2021 接收。
提交/修订历史:
- 提交于 2021年5月26日
- 最后修订于 2021年11月5日 (v3)