OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2105.13290

CogView:通用的跨模态文本到图像生成模型

 
  graphql ·  2026-02-13 05:56:35 · 9 次点击  · 0 条评论  

CogView: Mastering Text-to-Image Generation via Transformers

作者: Ming Ding, Zhuoyi Yang, Wenyi Hong, Wendi Zheng, Chang Zhou, Da Yin, Junyang Lin, Xu Zou, Zhou Shao, Hongxia Yang, Jie Tang

摘要:
通用领域的文本到图像生成长期以来一直是一个开放性问题,它既需要一个强大的生成模型,也需要跨模态的理解能力。我们提出了 CogView,一个拥有 40 亿参数的 Transformer 模型,并使用了 VQ-VAE 分词器来推进这一问题的解决。我们还展示了针对各种下游任务(例如风格学习、超分辨率、文本-图像排序和时尚设计)的微调策略,以及稳定预训练的方法(例如消除 NaN 损失)。CogView 在模糊的 MS COCO 数据集上取得了最先进的 FID 分数,超越了之前基于 GAN 的模型和近期类似工作 DALL-E。

主题/分类:
- 计算机视觉与模式识别 (cs.CV)
- 机器学习 (cs.LG)

备注: 本文已被 NeurIPS 2021 接收。

提交/修订历史:
- 提交于 2021年5月26日
- 最后修订于 2021年11月5日 (v3)

9 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 13 ms
Developed with Cursor