Visual Chain of Thought: Bridging Logical Gaps with Multimodal Infillings
基本信息
- 论文标题: Visual Chain of Thought: Bridging Logical Gaps with Multimodal Infillings
- 作者: Daniel Rose, Vaishnavi Himakunthala, Andy Ouyang, Ryan He, Alex Mei, Yujie Lu, Michael Saxon, Chinmay Sonar, Diba Mirza, William Yang Wang
- 提交日期: 2023年5月3日(v1),最后修订于2024年1月23日(v3)
- 分类: 计算机科学 > 计算与语言 (cs.CL);计算机视觉与模式识别 (cs.CV)
摘要
近期大型语言模型的进展通过“思维链”(chain-of-thought)引发推理能力,使模型能够以类人方式分解问题。尽管这一范式提升了语言模型的多步推理能力,但其局限于单模态且主要应用于问答任务。作者认为,将视觉增强融入推理至关重要,尤其是对于复杂、富有想象力的任务。为此,本文提出 VCoT,一种新颖的方法,它利用带有视觉-语言基础的思维链提示,递归地弥合序列数据中的逻辑鸿沟。该方法使用视觉引导生成合成的多模态填充内容,为后续受益于时序推理的下游任务添加一致且新颖的信息以缩小逻辑差距,同时提供模型多步推理的可解释性。作者将 VCoT 应用于 Visual Storytelling 和 WikiHow 摘要数据集,并通过人工评估证明,VCoT 提供了新颖且一致的合成数据增强,超越了思维链基线方法,可用于提升下游性能。
主要贡献
- 提出 VCoT(Visual Chain of Thought)方法,将视觉增强融入思维链推理过程。
- 利用视觉-语言基础(vision-language grounding)递归生成合成的多模态填充内容(multimodal infillings),弥合时序数据中的逻辑鸿沟。
- 在 Visual Storytelling 和 WikiHow 摘要数据集上验证方法有效性,人工评估表明其在数据增强和下游性能提升方面优于思维链基线。