数据集简介
该数据集是一个用于自然语言推理(NLI)任务的大规模文本数据集,旨在训练和评估句子嵌入模型。
主要用途
- 训练和微调句子嵌入模型(如 Sentence-BERT)。
- 用于自然语言推理任务,即判断两个句子之间的逻辑关系(蕴含、矛盾或中立)。
- 作为评估句子表示模型性能的基准数据集。
数据类型/模态
- 模态:纯文本。
- 内容:包含句子对及其对应的逻辑关系标签。
规模与统计信息
- 数据量:约 286 万行(句子对)。
- 格式:提供 Parquet 格式文件。
使用场景
- 自然语言处理研究,特别是句子表示学习和语义相似度计算。
- 为下游任务(如文本分类、信息检索、问答系统)提供预训练的句子嵌入模型。
- 模型性能评估和对比实验。