作者: Aaron van den Oord, Oriol Vinyals, Koray Kavukcuoglu
提交日期: 2017年11月2日 (v1), 2018年5月30日修订 (v2)
主题分类: 机器学习 (cs.LG)
摘要:
学习有用的无监督表示仍然是机器学习中的一个关键挑战。本文提出了一种简单而强大的生成模型,用于学习此类离散表示。我们的模型,即向量量化-变分自编码器(VQ-VAE),与标准VAE在两个关键方面有所不同:编码器网络输出离散的,而非连续的编码;并且先验是学习得到的而非静态的。为了学习离散的潜在表示,我们融入了向量量化(VQ)的思想。使用VQ方法使模型能够规避“后验塌缩”问题——即当潜在变量与强大的自回归解码器配对时,潜在变量被忽略——这通常在VAE框架中被观察到。将这些表示与自回归先验配对,该模型能够生成高质量的图像、视频和语音,并能进行高质量的说话人转换和无监督的音素学习,这进一步证明了所学表示的有效性。