OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
说明
  • 条目同步来自 Hugging Face 主要方便针对性讨论。
OA0  ›  数据集  ›  SandboxAQ

SandboxAQ/SAIR

 
  SandboxAQ  ·  2025-08-29 18:23:24  ·  2 次点击  ·  0 条评论  

数据集简介

SAIR 是由 SandboxAQ 发布的一个大规模数据集,主要用于人工智能研究,特别是涉及表格数据和文本数据的应用场景。

主要特性

  • 数据类型:该数据集包含表格数据文本数据两种模态。
  • 数据规模:数据量较大,包含约 880 万行数据。
  • 技术格式:数据以 Parquet 格式存储,便于高效处理和分析。支持使用 datasetspandasmlcroissantpolars 等主流库进行加载和操作。

主要用途与场景

该数据集适用于需要结合结构化表格信息与非结构化文本信息的机器学习任务,例如:
- 联合分析表格与文本的模型训练。
- 信息提取与知识发现。
- 作为基准数据集用于评估多模态模型的性能。

数据集地址:None
2 次点击  ∙  0 人收藏  
登录后收藏  
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 11 ms
Developed with Cursor