数据集简介
该数据集由 AutoGluon 团队发布,主要用于特征工程验证(FEV)任务。它提供了一个多模态的基准测试集合,旨在帮助开发者和研究人员评估和比较不同特征工程方法或机器学习模型在结构化数据上的性能。
主要用途
- 特征工程评估:作为基准数据集,用于测试和验证特征工程技术的有效性。
- 模型性能对比:用于比较不同机器学习框架或算法在结构化预测任务上的表现。
- AutoML 研究:特别适用于 AutoML(如 AutoGluon)工具链的开发和基准测试。
数据类型与模态
这是一个多模态数据集,包含以下类型的数据:
* 表格数据:核心数据形式,包含结构化的行和列。
* 文本数据:数据集中可能包含文本类型的特征。
* 时间序列数据:数据集中可能包含与时间相关的序列特征。
规模与统计信息
- 数据行数:约 12.8 万行。
- 存储格式:Parquet 格式,适合高效存储和处理大规模结构化数据。
- 下载量:已超过 1.4 万次,表明其具有较高的关注度和使用率。
使用场景
- 机器学习工程师/数据科学家:在开发新的特征工程方法或需要标准数据集进行模型测试时使用。
- AutoML 工具开发者:用于验证和提升自动化机器学习管道的性能。
- 学术研究:作为特征选择、数据预处理或模型评估相关研究的基准数据。