ANLI 数据集简介
数据集概述
ANLI(Adversarial Natural Language Inference)是由 Facebook(现 Meta)发布的一个对抗性自然语言推理数据集。它旨在测试和提升模型在对抗性样本上的推理能力。
主要用途
- 自然语言推理(NLI):判断一个假设(hypothesis)与一个前提(premise)之间的关系(蕴含、矛盾或中立)。
- 模型鲁棒性评估:专门设计用于挑战和评估模型在对抗性、难以处理的样本上的性能。
- 对抗训练:可用于训练模型以提高其对对抗性攻击的抵抗力。
数据类型与模态
- 模态:纯文本(text)
- 任务类型:文本分类/自然语言推理
- 标签:蕴含(entailment)、矛盾(contradiction)、中立(neutral)
数据规模与统计
- 总数据量:约 16.9 万条样本
- 下载量:超过 1 万次
- 社区认可:获得 45 次点赞
使用场景
- 研究与开发:适用于自然语言处理(NLP)领域的研究人员,特别是专注于模型鲁棒性、对抗性学习和自然语言推理的团队。
- 基准测试:可作为衡量模型在复杂、对抗性语境下推理能力的基准数据集。
- 模型训练:用于训练更稳健的NLI模型,或作为现有模型的补充训练数据。
核心特点
- 对抗性构建:数据通过多轮、迭代的对抗性过程收集,其中模型在每一轮的困难样本上被挑战,从而创建出逐步更具挑战性的数据。
- 难度分级:数据通常分为多轮(Rounds),难度逐轮增加。
- 开源可用:数据集非封闭(gated: false),可公开访问和使用。