数据集简介
Smoltalk2 是一个由 HuggingFaceTB 发布的大规模文本数据集,主要用于自然语言处理(NLP)相关的模型训练与研究。
主要用途
该数据集适用于文本生成、语言模型预训练、对话系统开发等自然语言处理任务。
数据类型与模态
- 模态类型:纯文本(text)
- 数据格式:Parquet
- 支持库:datasets、dask、mlcroissant、polars
规模与统计
- 数据量:约 861 万行文本
- 下载量:超过 7,400 次
- 社区反馈:获得 144 次点赞
使用场景
- 大规模语言模型(LLM)的预训练与微调
- 文本生成与对话模型开发
- 学术研究与实验验证