首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

C4 数据集简介

概述

C4（Colossal Clean Crawled Corpus）是由 AllenAI 发布的一个大规模、经过严格清洗的英文文本语料库。它旨在为自然语言处理任务，特别是大规模语言模型预训练，提供高质量的文本数据。

主要用途

大规模语言模型预训练：为训练如 T5 等模型提供核心文本数据。
自然语言处理研究：作为各种 NLP 任务的基准数据集或数据源。
文本生成与分析：用于研究语言模式、文本风格等。

数据类型与特点

模态：纯文本。
核心特点：数据来源于网络爬取，但经过了精心的去重、过滤和清理，移除了大量低质量、重复或非自然语言的文本（如菜单、错误信息、占位文本等），质量较高。
语言：主要为英文。

规模与统计

数据量极大：包含超过 103 亿 条文本行。
受欢迎程度：在 Hugging Face 平台上下载量超过 50 万 次，获得超过 500 个点赞，是社区内广泛使用的基础数据集之一。

使用场景

训练和评估生成式语言模型。
作为对比研究中的标准语料库。
需要海量、干净英文文本的学术或工业项目。

数据集地址：https://huggingface.co/datasets/allenai/c4

70 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 24 ms

Developed with Cursor