OpenScholar-DataStore-V3 数据集简介
概述
这是一个由 OpenSciLM 发布的大规模学术数据存储库,旨在为科学和学术研究领域提供结构化的数据支持。
主要用途
- 为科学语言模型(SciLM)的训练和评估提供数据基础。
- 支持学术信息检索、知识挖掘、文献分析等研究任务。
- 可作为构建学术知识库或问答系统的数据源。
数据类型与模态
- 模态:表格数据(Tabular)与文本数据(Text)相结合。
- 格式:数据以 JSON 格式存储,便于程序化处理与解析。
规模与统计
- 数据总行数接近 1.5 亿条(149,518,858 行),规模庞大。
- 截至统计时,已获得近 500 次下载和 18 个点赞,具有一定的社区关注度。
使用场景
- 模型训练:用于训练或微调专注于科学文献理解、摘要生成或问答的模型。
- 学术分析:进行跨领域的学术趋势分析、作者合作网络研究等。
- 系统开发:作为后端数据,开发学术搜索引擎或智能文献推荐系统。