神经离散表示学习

作者: Aaron van den Oord, Oriol Vinyals, Koray Kavukcuoglu

提交日期: 2017年11月2日 (v1)， 2018年5月30日修订 (v2)

主题分类: 机器学习 (cs.LG)

摘要:
学习有用的无监督表示仍然是机器学习中的一个关键挑战。本文提出了一种简单而强大的生成模型，用于学习此类离散表示。我们的模型，即向量量化-变分自编码器（VQ-VAE），与标准VAE在两个关键方面有所不同：编码器网络输出离散的，而非连续的编码；并且先验是学习得到的而非静态的。为了学习离散的潜在表示，我们融入了向量量化（VQ）的思想。使用VQ方法使模型能够规避“后验塌缩”问题——即当潜在变量与强大的自回归解码器配对时，潜在变量被忽略——这通常在VAE框架中被观察到。将这些表示与自回归先验配对，该模型能够生成高质量的图像、视频和语音，并能进行高质量的说话人转换和无监督的音素学习，这进一步证明了所学表示的有效性。

论文地址：https://arxiv.org/abs/1711.00937

49 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

VQ-VAE：离散潜变量生成模型，为图像与视频生成奠定基础

神经离散表示学习