OpenGVLab/OmniCorpus-CC

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

OmniCorpus-CC 是由 OpenGVLab 发布的一个大规模文本数据集，主要用于训练和评估多模态或纯文本模型。

主要用途

该数据集旨在为大型语言模型（LLM）或视觉-语言模型提供海量的、高质量的文本预训练语料。

数据类型/模态

模态类型：纯文本。
数据格式：以 Parquet 格式存储，便于高效处理和分析。

规模与统计信息

数据量：包含超过 8.7 亿条 文本样本，规模庞大。
热度：已获得超过 7,000 次下载，表明其在研究社区中有一定的关注度和使用度。

使用场景

模型预训练：作为基础语料库，用于训练或继续预训练各类文本生成和理解模型。
研究基准：为文本质量评估、去重、过滤等 NLP 数据工程研究提供大规模真实数据。
知识增强：其海量文本可能涵盖广泛领域，可用于增强模型的世界知识和语言能力。

数据集地址：https://huggingface.co/datasets/OpenGVLab/OmniCorpus-CC

69 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 11 ms

Developed with Cursor