作者: Jerry Tang, Meng Du, Vy A. Vo, Vasudev Lal, Alexander G. Huth
提交日期: 2023年5月20日
摘要:
编码模型已被用于评估人脑如何表征语言和视觉中的概念。尽管语言和视觉依赖于相似的概念表征,但当前的编码模型通常是在对每种模态单独的大脑反应上进行训练和测试的。多模态预训练的最新进展产生了能够提取语言和视觉中对齐概念表示的Transformer模型。在本工作中,我们利用多模态Transformer的表示来训练编码模型,这些模型能够跨故事和电影的功能性磁共振成像(fMRI)反应进行迁移。我们发现,在一种模态的大脑反应上训练的编码模型可以成功预测另一种模态的大脑反应,尤其是在表征概念意义的皮层区域。对这些编码模型的进一步分析揭示了语言和视觉概念表征背后共享的语义维度。通过比较使用多模态和单模态Transformer表示训练的编码模型,我们发现多模态Transformer学习了语言和视觉中更对齐的概念表示。我们的结果证明了多模态Transformer如何能够为大脑的多模态处理能力提供见解。
主题分类:
- 计算与语言(cs.CL)
- 计算机视觉与模式识别(cs.CV)
引用标识符: arXiv:2305.12248 [cs.CL]