由 Salesforce 发布的一个文本数据集,主要用于基准测试(Benchmarking)相关任务。
datasets
pandas
polars
mlcroissant
适用于需要大规模文本数据进行模型训练、评估或基准测试的研究与开发项目。其标准化的格式和适中的规模使其成为测试自然语言处理(NLP)流程或算法性能的实用选择。