NVIDIA 发布的 Nemotron-Terminal-Corpus 是一个大型文本语料库,主要用于训练和评估大语言模型。
该数据集旨在为自然语言处理(NLP)研究,特别是大语言模型的预训练和指令微调提供高质量的文本数据。
适用于需要大规模、高质量文本数据的场景,例如: - 大语言模型的预训练。 - 指令遵循模型的微调。 - 文本生成、理解等下游任务的基准测试。