数据集简介
OmniCorpus-CC 是由 OpenGVLab 发布的一个大规模文本数据集,主要用于训练和评估多模态或纯文本模型。
主要用途
该数据集旨在为大型语言模型(LLM)或视觉-语言模型提供海量的、高质量的文本预训练语料。
数据类型/模态
- 模态类型:纯文本。
- 数据格式:以 Parquet 格式存储,便于高效处理和分析。
规模与统计信息
- 数据量:包含超过 8.7 亿条 文本样本,规模庞大。
- 热度:已获得超过 7,000 次下载,表明其在研究社区中有一定的关注度和使用度。
使用场景
- 模型预训练:作为基础语料库,用于训练或继续预训练各类文本生成和理解模型。
- 研究基准:为文本质量评估、去重、过滤等 NLP 数据工程研究提供大规模真实数据。
- 知识增强:其海量文本可能涵盖广泛领域,可用于增强模型的世界知识和语言能力。