yandex/yambda 数据集简介
数据集概述
这是一个由 Yandex 发布的大型数据集,主要用于支持机器学习与数据分析任务。
主要特性
- 数据规模:数据集规模庞大,包含超过 53 亿 行数据。
- 数据类型:为表格型与文本型混合数据,适合处理结构化与非结构化信息。
- 技术格式:数据以高效的 Parquet 文件格式存储,便于使用主流数据处理库(如 pandas, polars)进行快速读取与分析。
适用场景
- 大规模数据挖掘与分析
- 机器学习模型训练(尤其适合处理表格与文本混合特征)
- 数据工程与处理流程的基准测试
社区热度
该数据集受到一定关注,已获得超过 2800 次下载和 200+ 点赞。