opendatalab/AICC

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

AICC 是一个由 OpenDataLab 发布的大规模文本数据集，主要用于支持人工智能和自然语言处理相关的研究与应用。

主要用途

该数据集适用于训练和评估大型语言模型（LLM）、进行文本挖掘、信息检索、以及其他需要海量文本数据的自然语言处理任务。

数据类型与模态

模态类型：纯文本（text）
数据格式：Parquet

规模与统计信息

数据行数：约 48.2 亿条
下载量：超过 107 万次
社区认可：获得 101 个点赞

使用场景

大语言模型预训练：为模型提供丰富的语料。
文本分析研究：支持词汇、句法、语义等层面的研究。
算法基准测试：作为评估文本处理算法性能的基准数据集。

特点

规模巨大：包含数十亿条文本数据，能充分满足大数据量需求。
易于获取与处理：非门控（gated）数据集，可公开访问，且支持通过主流数据处理库（如 Dask、Polars）高效读取。
社区活跃：较高的下载量和点赞数反映了其在研究社区的广泛使用和认可。

数据集地址：https://huggingface.co/datasets/opendatalab/AICC

66 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 12 ms

Developed with Cursor