MANTA-1M 是由 LGAI-EXAONE 发布的一个大规模文本数据集,包含 100 万条数据样本。
该数据集主要用于支持大规模语言模型的训练、微调或相关文本分析任务。
适用于需要大规模文本语料的场景,例如: - 预训练语言模型 - 文本生成与理解研究 - 自然语言处理(NLP)实验与基准测试