Smoltalk 数据集简介
概述
Smoltalk 是一个由 HuggingFaceTB 创建的开源数据集,主要用于自然语言处理(NLP)和机器学习任务。
主要用途
该数据集适用于文本生成、对话系统、语言模型训练等场景,为研究人员和开发者提供大规模、高质量的文本数据支持。
数据类型与模态
- 模态类型:表格数据(Tabular)与文本数据(Text)
- 数据格式:Parquet 格式,便于高效存储与处理
规模与统计
- 数据行数:约 219.8 万行
- 下载量:5954 次
- 点赞数:391 次
使用场景
- 语言模型预训练与微调
- 对话系统开发与评估
- 文本分析与生成任务
- 机器学习模型训练与测试
技术特性
- 支持多种数据处理库(如 datasets、dask、mlcroissant、polars)
- 非门控数据,可公开访问
- 数据更新至 2025 年 2 月,保持时效性