数据集简介
COCO-Caption2017 是基于 MS COCO 2017 数据集构建的图像描述数据集,包含图像与对应的文本描述。
主要用途
用于图像描述(Image Captioning)任务,支持训练和评估视觉-语言模型,实现从图像生成自然语言描述。
数据类型/模态
- 图像:来自 MS COCO 2017 数据集的图片。
- 文本:每张图片对应的人工标注的英文描述(通常为5条描述)。
规模与统计
- 数据总行数:45,670 条(对应图像-描述对)。
- 数据格式:Parquet。
- 下载量:约 4,800 次。
使用场景
- 模型训练:训练图像描述生成模型(如基于 Transformer 的视觉-语言模型)。
- 基准测试:评估图像描述模型的性能(如 BLEU、CIDEr、SPICE 等指标)。
- 多模态研究:支持视觉与语言联合表示学习、跨模态检索等研究方向。