ODA-Mixture-100k 是由 OpenDataArena 发布的一个大规模文本数据集,包含超过 10 万条文本样本。
适用于文本相关的机器学习任务,如语言模型预训练、文本分类、自然语言理解等。
可用于构建或微调文本模型,支持多种数据处理库(如 datasets、dask、polars),便于在数据科学和机器学习流程中集成与处理。