数据集简介
这是一个由LAION发布的艺术相关数据集,包含超过800万条记录,旨在为艺术领域的多模态研究提供数据支持。
主要用途
适用于艺术图像分析、跨模态检索(图文匹配)、艺术风格研究以及多模态机器学习模型的训练与评估。
数据类型/模态
- 图像:艺术作品的视觉数据
- 文本:与艺术作品相关的描述性文字
- 表格数据:结构化的元信息或属性数据
规模与统计
- 数据总量:8,062,077 条记录
- 存储格式:Parquet
- 下载量:255次
- 点赞数:58
使用场景
- 训练图文多模态模型(如CLIP风格模型)
- 艺术作品的自动标注与分类
- 艺术史或风格演变的量化研究
- 跨模态检索系统的开发(通过文字搜索图像或反之)
技术特点
- 支持多种数据处理库(datasets、dask、mlcroissant、polars)
- 访问权限为自动审核(gated: auto)
- 数据最后更新于2024年7月