VideoMathQA 是一个由 MBZUAI 发布的多模态数学问答数据集,专注于结合视频、文本和表格数据来解决数学问题。
该数据集旨在用于开发和评估能够理解视频内容、并结合文本与表格信息进行数学推理的 AI 模型。
数据集包含三种主要模态:
* 视频:提供与数学问题相关的视觉场景。
* 文本:包含问题描述、选项和答案。
* 表格:可能包含与问题相关的结构化数据。
适用于多模态学习、视频理解、数学推理、视觉问答(VQA)等研究领域,特别是需要模型从动态视觉信息中提取关键数据以解决定量问题的任务。