CogView: Mastering Text-to-Image Generation via Transformers

作者： Ming Ding, Zhuoyi Yang, Wenyi Hong, Wendi Zheng, Chang Zhou, Da Yin, Junyang Lin, Xu Zou, Zhou Shao, Hongxia Yang, Jie Tang

摘要：
通用领域的文本到图像生成长期以来一直是一个开放性问题，它既需要一个强大的生成模型，也需要跨模态的理解能力。我们提出了 CogView，一个拥有 40 亿参数的 Transformer 模型，并使用了 VQ-VAE 分词器来推进这一问题的解决。我们还展示了针对各种下游任务（例如风格学习、超分辨率、文本-图像排序和时尚设计）的微调策略，以及稳定预训练的方法（例如消除 NaN 损失）。CogView 在模糊的 MS COCO 数据集上取得了最先进的 FID 分数，超越了之前基于 GAN 的模型和近期类似工作 DALL-E。

主题/分类：
- 计算机视觉与模式识别 (cs.CV)
- 机器学习 (cs.LG)

备注： 本文已被 NeurIPS 2021 接收。

提交/修订历史：
- 提交于 2021年5月26日
- 最后修订于 2021年11月5日 (v3)

论文地址：https://arxiv.org/abs/2105.13290

22 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

CogView：通用的跨模态文本到图像生成模型

CogView: Mastering Text-to-Image Generation via Transformers