OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/1711.00937

VQ-VAE:离散潜变量生成模型,为图像与视频生成奠定基础

 
  monolith ·  2026-04-10 11:01:25 · 1 次点击  · 0 条评论  

神经离散表示学习

作者: Aaron van den Oord, Oriol Vinyals, Koray Kavukcuoglu

提交日期: 2017年11月2日 (v1), 2018年5月30日修订 (v2)

主题分类: 机器学习 (cs.LG)

摘要:
学习有用的无监督表示仍然是机器学习中的一个关键挑战。本文提出了一种简单而强大的生成模型,用于学习此类离散表示。我们的模型,即向量量化-变分自编码器(VQ-VAE),与标准VAE在两个关键方面有所不同:编码器网络输出离散的,而非连续的编码;并且先验是学习得到的而非静态的。为了学习离散的潜在表示,我们融入了向量量化(VQ)的思想。使用VQ方法使模型能够规避“后验塌缩”问题——即当潜在变量与强大的自回归解码器配对时,潜在变量被忽略——这通常在VAE框架中被观察到。将这些表示与自回归先验配对,该模型能够生成高质量的图像、视频和语音,并能进行高质量的说话人转换和无监督的音素学习,这进一步证明了所学表示的有效性。

1 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 11 ms
Developed with Cursor