OpenDataArena/ODA-Mixture-100k

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

ODA-Mixture-100k 是由 OpenDataArena 发布的一个大规模文本数据集，包含超过 10 万条文本样本。

主要用途

适用于文本相关的机器学习任务，如语言模型预训练、文本分类、自然语言理解等。

数据类型/模态

模态：纯文本
格式：Parquet

规模与统计信息

样本数量：101,306 条
下载量：超过 3,000 次
社区反馈：获得 95 次点赞

使用场景

可用于构建或微调文本模型，支持多种数据处理库（如 datasets、dask、polars），便于在数据科学和机器学习流程中集成与处理。

数据集地址：https://huggingface.co/datasets/OpenDataArena/ODA-Mixture-100k

72 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 17 ms

Developed with Cursor