Dayhoff 是由微软(Microsoft)发布的一个大型文本数据集。它包含了超过 17.7 亿条文本数据记录,规模庞大。
该数据集主要用于文本相关的机器学习任务,例如: * 大规模语言模型(LLM)的预训练 * 文本生成、分类、理解等下游任务 * 自然语言处理(NLP)领域的研究与开发
适用于需要海量文本数据进行模型训练或基准测试的研究人员、开发者和机构。其庞大的规模使其成为训练前沿大语言模型的潜在数据源之一。