OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
说明
  • 条目同步来自 Hugging Face 主要方便针对性讨论。
OA0  ›  数据集  ›  OpenResearcher

OpenResearcher/OpenResearcher-Dataset

 
  OpenResearcher  ·  2026-02-12 22:23:38  ·  13 次点击  ·  0 条评论  

数据集简介

OpenResearcher-Dataset 是一个由 OpenResearcher 团队创建的开源数据集,主要用于学术研究。它结合了表格数据和文本数据,旨在支持数据科学、机器学习以及跨模态分析等领域的研究与应用。

主要用途

  • 学术研究:为研究人员提供结构化和非结构化的数据,便于进行实验和分析。
  • 机器学习训练:适用于训练和评估涉及表格与文本数据的模型。
  • 数据分析:支持使用多种数据处理库(如 Dask、Polars)进行高效的数据操作和探索。

数据类型/模态

  • 表格数据(Tabular):结构化数据,适合进行统计分析和建模。
  • 文本数据(Text):非结构化文本信息,可用于自然语言处理任务。

规模与统计信息

  • 数据行数:97,630 行
  • 下载量:16,444 次
  • 点赞数:106
  • 数据格式:支持 Parquet 和优化版 Parquet 格式,便于高效存储和处理。

使用场景

  • 跨模态学习:结合表格和文本数据,开发多模态机器学习模型。
  • 数据科学项目:作为基准数据集,用于数据清洗、特征工程和模型构建。
  • 教育与实践:适合学生和开发者学习如何处理混合类型的数据集。
13 次点击  ∙  0 人收藏  
登录后收藏  
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 14 ms
Developed with Cursor