这是一个由 HuggingFaceTB 发布的大型文本语料库,主要用于训练或微调小型语言模型(Small Language Models, SLMs)。
为构建和优化参数规模较小的语言模型提供高质量的预训练或指令微调数据。
text
tabular
适用于研究人员和开发者进行: * 小型语言模型(SLM)的预训练。 * 语言模型的指令微调。 * 大规模文本数据的分析与处理实验。