LatentExplainer: Explaining Latent Representations in Deep Generative Models with Multimodal Large Language Models
Mengdan Zhu, Raasikh Kanjiani, Jiahui Lu, Andrew Choi, Qirui Ye, Liang Zhao
深度生成模型(如VAE和扩散模型)通过利用潜变量学习数据分布并生成高质量样本,推动了各种生成任务的发展。尽管可解释AI在解释机器学习模型方面取得了进展,但理解生成模型中的潜变量仍然具有挑战性。本文提出了LatentExplainer,一个自动生成深度生成模型中潜变量语义上有意义解释的框架。LatentExplainer应对三个主要挑战:推断潜变量的含义、使解释与归纳偏置对齐、以及处理不同程度的可解释性。该方法通过扰动潜变量、解释生成数据中的变化,并利用多模态大语言模型(MLLMs)生成人类可理解的解释。我们在多个真实世界和合成数据集上评估了所提出的方法,结果表明在生成高质量潜变量解释方面具有优越性能。结果突显了融入归纳偏置和不确定性量化的有效性,显著增强了模型的可解释性。