作者: Samir Sadok, Simon Leglaive, Laurent Girin, Xavier Alameda-Pineda, Renaud Séguier
提交/修订日期: 2023年5月5日提交,2024年2月20日修订 (v3)
摘要:
本文提出了一种多模态动态变分自编码器(MDVAE),用于无监督的视听语音表征学习。其潜在空间被设计为能够分离模态间共享的潜在动态因子与各模态特有的因子。此外,模型还引入了一个静态潜在变量,用于编码视听语音序列中随时间恒定的信息。模型在一个视听情感语音数据集上以无监督方式分两阶段进行训练。第一阶段,为每个模态独立学习一个向量量化VAE(VQ-VAE),不进行时序建模。第二阶段,在VQ-VAE量化前的中间表示上学习MDVAE模型。静态与动态信息、模态特定与模态共有信息的解耦发生在这一训练阶段。本文进行了广泛的实验,以探究视听语音的潜在因子如何在MDVAE的潜在空间中被编码。这些实验包括视听语音操控、视听人脸图像去噪以及视听语音情感识别。结果表明,MDVAE在其潜在空间中有效地结合了音频和视觉信息。同时,学习到的视听语音静态表示可用于情感识别,在仅有少量标注数据的情况下,其准确率优于单模态基线模型以及一个基于视听Transformer架构的先进监督模型。
主题/分类:
- 主要: Sound (cs.SD)
- 其他: Machine Learning (cs.LG); Multimedia (cs.MM); Audio and Speech Processing (eess.AS)
相关资源:
- 项目页面: https://samsad35.github.io/site-mdvae/
- 期刊DOI: 10.1016/j.neunet.2024.106120