数据集简介
该数据集由 AllenAI 发布,是一个用于预测科学文献未来影响力的文本数据集。它旨在通过分析科学论文的早期特征(如标题、摘要、引用等),预测其未来的引用次数或学术影响力。
主要用途
- 科学影响力预测:基于论文的早期文本信息,预测其长期学术影响力。
- 文献计量学研究:为研究科学传播、论文影响力因素提供数据支持。
- 机器学习模型训练:可用于训练和评估自然语言处理(NLP)模型在学术文本预测任务上的性能。
数据类型与规模
- 模态:纯文本。
- 数据格式:Parquet。
- 数据规模:包含约 83.9 万行数据。
使用场景
- 研究人员或开发者可用于构建论文影响力早期预警系统。
- 学术机构或出版商可用于识别有潜力的研究,辅助决策。
- 适合作为 NLP 任务(如文本分类、回归预测)的基准数据集。