数据集简介
该数据集由 cis-lmu 发布,是一个用于大规模掩码语言建模(Masked Language Modeling, MLM) 的预训练数据集。
主要用途
- 支持大规模语言模型的预训练,特别是基于掩码语言建模(MLM)目标的训练。
- 可用于训练或微调 BERT 等掩码语言模型。
数据类型/模态
- 文本数据:包含大量用于语言建模的文本语料。
- 模态:纯文本。
规模或统计信息
- 下载量:128 次
- 点赞数:6
- 更新日期:2025年5月14日
使用场景
- 研究人员或开发者可用于训练新的掩码语言模型。
- 可作为预训练语料库,用于下游自然语言处理任务(如文本分类、问答系统等)的模型初始化。
- 适合需要大规模文本数据进行自监督学习的项目。