OpenDataArena/OpenDataArena-scored-data

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

这是一个由 OpenDataArena 发布的大规模文本数据集，主要用于数据质量评估和模型训练。

主要用途

数据质量评分：数据集的核心功能是为文本数据提供质量评分，可用于筛选高质量的训练数据。
模型训练与评估：适用于训练或评估需要高质量文本数据的自然语言处理模型。

数据类型与规模

模态类型：纯文本数据。
数据规模：包含超过 1569 万条 数据记录。
存储格式：数据以 Parquet 格式存储，支持通过 datasets、dask、polars 等库高效读取和处理。

特点与场景

大规模评分数据：专门为海量文本提供质量评分，有助于自动化数据清洗和筛选流程。
开源易用：数据集完全公开，无需特殊权限即可下载使用。
适用场景：适合用于构建数据质量管道、增强训练数据集质量，或作为文本数据评估的基准数据集。

数据集地址：https://huggingface.co/datasets/OpenDataArena/OpenDataArena-scored-data

78 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 23 ms

Developed with Cursor