数据集简介
MLQA(Multilingual Question Answering)是由 Facebook(现 Meta)发布的多语言问答数据集,旨在评估跨语言阅读理解模型的性能。
主要用途
用于测试和评估机器阅读理解模型在多语言场景下的表现,特别是跨语言迁移学习能力。
数据类型/模态
- 模态类型:文本
- 数据内容:问题-上下文-答案对
- 语言覆盖:包含英语、阿拉伯语、德语、西班牙语、印地语、越南语、中文等多种语言
数据特性
- 跨语言对齐:数据集中的问题在不同语言版本间进行了人工翻译对齐,确保不同语言版本的问题语义一致
- 评估基准:专门设计用于评估模型在零样本跨语言迁移设置下的性能
- 高质量标注:答案在上下文中均有明确标注,便于模型训练和评估
使用场景
- 多语言机器阅读理解模型开发
- 跨语言自然语言处理研究
- 零样本迁移学习实验
- 多语言AI系统评估