由 NVIDIA 发布的文本数据集,主要用于训练和评估嵌入模型(如 Nemotron 系列模型)。该数据集专注于文本模态,旨在提升模型对文本语义的理解和表示能力。
适用于需要高质量文本向量表示的研究与应用,例如: * 语义搜索与检索增强生成(RAG)。 * 文本分类与聚类。 * 句子或文档级别的相似度计算。