OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
说明
  • 条目同步来自 Hugging Face 主要方便针对性讨论。
OA0  ›  数据集  ›  Ai2

allenai/c4

 
  Ai2  ·  2024-01-09 19:14:03  ·  24 次点击  ·  0 条评论  

C4 数据集简介

概述

C4(Colossal Clean Crawled Corpus)是由 AllenAI 发布的一个大规模、经过严格清洗的英文文本语料库。它旨在为自然语言处理任务,特别是大规模语言模型预训练,提供高质量的文本数据。

主要用途

  • 大规模语言模型预训练:为训练如 T5 等模型提供核心文本数据。
  • 自然语言处理研究:作为各种 NLP 任务的基准数据集或数据源。
  • 文本生成与分析:用于研究语言模式、文本风格等。

数据类型与特点

  • 模态:纯文本。
  • 核心特点:数据来源于网络爬取,但经过了精心的去重、过滤和清理,移除了大量低质量、重复或非自然语言的文本(如菜单、错误信息、占位文本等),质量较高。
  • 语言:主要为英文。

规模与统计

  • 数据量极大:包含超过 103 亿 条文本行。
  • 受欢迎程度:在 Hugging Face 平台上下载量超过 50 万 次,获得超过 500 个点赞,是社区内广泛使用的基础数据集之一。

使用场景

  • 训练和评估生成式语言模型。
  • 作为对比研究中的标准语料库。
  • 需要海量、干净英文文本的学术或工业项目。
24 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 16 ms
Developed with Cursor