SMOL 是由 Google 发布的一个文本数据集,包含约 80 万行文本数据。
该数据集主要用于文本相关的机器学习任务,如语言模型训练、文本分析等。
适用于需要中等规模文本数据的自然语言处理研究和实验。