SAIR 是由 SandboxAQ 发布的一个大规模数据集,主要用于人工智能研究,特别是涉及表格数据和文本数据的应用场景。
datasets
pandas
mlcroissant
polars
该数据集适用于需要结合结构化表格信息与非结构化文本信息的机器学习任务,例如: - 联合分析表格与文本的模型训练。 - 信息提取与知识发现。 - 作为基准数据集用于评估多模态模型的性能。