CoQA 数据集简介
CoQA 是一个面向对话式问答(Conversational Question Answering)的英文数据集。
主要用途
用于训练和评估机器在对话上下文中进行问答的能力。模型需要理解多轮对话的历史,并基于给定的文本段落回答自然语言问题。
数据类型/模态
- 模态:纯文本
- 内容:包含来自7个不同领域(如新闻、小说、维基百科等)的文本段落,以及围绕这些段落展开的多轮对话式问答对。
规模与统计
- 数据量:包含 7,699 条数据样本(行)。
- 格式:提供 Parquet 格式文件。
使用场景
- 开发对话式问答系统与聊天机器人。
- 研究机器阅读理解(MRC)在连续对话语境下的表现。
- 作为自然语言处理(NLP)模型的基准测试数据集。