数据集简介
MMLU Speech 是一个由 Mistral AI 发布的多模态数据集,旨在评估模型在结合音频和文本信息方面的能力。它基于著名的 MMLU(大规模多任务语言理解)基准构建,但将纯文本问题扩展为包含语音形式。
主要用途
该数据集主要用于评估和训练多模态模型,特别是测试模型如何同时处理和理解音频(语音)与文本信息,以完成复杂的推理和问答任务。
数据类型与模态
- 模态类型:音频、文本
- 数据格式:包含 Parquet 格式的文件,便于高效存储和处理。
- 核心内容:数据集将 MMLU 中的文本问题转化为对应的语音音频,形成了“音频问题-文本答案”或相关的多模态问答对。
规模与统计
- 数据量:包含 14,267 行数据。
- 热度:已获得 346 次下载和 15 个点赞。
使用场景
- 多模态模型基准测试:用于评测语音-语言模型在知识性、推理性问答任务上的性能。
- 模型训练:可作为训练数据,帮助模型学习从语音中提取语义并与文本知识对齐。
- 学术研究:适用于研究语音理解、多模态融合、以及模型在跨模态任务中的泛化能力。